Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Bot

Администратор
Команда форума
23 Янв 2020
191,161
3,080
113
Основы Apache Hadoop [2022]
Специалист
Сергей Шуйков
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

Проект используется для
реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Facebook.

На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём.

Мы рассмотрим работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации.

Задействуем фреймворк MapReduce, который управляет распределением компонент нашего приложения по множеству узлов вычислительного кластера.

Познакомимся с другими проектами, базирующимися на Hadoop и образующих целую экосистему.

Вы научитесь:

1. Настраивать виртуальные машины для запуска Hadoop приложений.
2. Работать с файловой системой HDFS.
3. Создавать распределенное приложение, работающее на узлах кластера Hadoop.

Вы будете знать:
1. Архитектуру Hadoop;
2. Распределенную файловую систему HDFS;
3. Классический MapReduce;
4. Использование YARN;

Спойлер: Содержание
Модуль 1 - Архитектура Hadoop
  • Лабораторная: Создание и конфигурирование виртуальных машин.
Модуль 2 - Распределенная файловая система HDFS
  • Лабораторная: Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS.
Модуль 3 - Модель распределённый вычислений MapReduce, форматы данных для MapReduce
  • Лабораторная: Управление приложением и ресурсами.
Модуль 4 - Архитектура YARN
  • Лабораторная: Управление ресурсами кластера.
Модуль 5 - Выполнение задач в приложении MapReduce и YARN
  • Лабораторная: Использование распределенного кэша.
Модуль 6 - Использование потоковой обработки (Hadoop Streaming)
Модуль 7 - Компоненты экосистемы Hadoop


  • Введение в Pig (высокоуровневая абстракция обработки данных):Ведение в Hive (СУБД на основе Hadoop, язык HiveQL).
  • Введение в Sqoop (взаимодействие с классическими реляционными базами).

Продажник