Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Bot · 10 Дек 2021

Основы Apache Hadoop [2022]
Специалист
Сергей Шуйков
Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

Проект используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов, в том числе, для Facebook.

На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём.

Мы рассмотрим работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации.

Задействуем фреймворк MapReduce, который управляет распределением компонент нашего приложения по множеству узлов вычислительного кластера.

Познакомимся с другими проектами, базирующимися на Hadoop и образующих целую экосистему.

Вы научитесь:
1. Настраивать виртуальные машины для запуска Hadoop приложений.
2. Работать с файловой системой HDFS.
3. Создавать распределенное приложение, работающее на узлах кластера Hadoop.

Вы будете знать:
1. Архитектуру Hadoop;
2. Распределенную файловую систему HDFS;
3. Классический MapReduce;
4. Использование YARN;

Спойлер: Содержание
Модуль 1 - Архитектура Hadoop

Лабораторная: Создание и конфигурирование виртуальных машин.

Модуль 2 - Распределенная файловая система HDFS

Лабораторная: Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS.

Модуль 3 - Модель распределённый вычислений MapReduce, форматы данных для MapReduce

Лабораторная: Управление приложением и ресурсами.

Модуль 4 - Архитектура YARN

Лабораторная: Управление ресурсами кластера.

Модуль 5 - Выполнение задач в приложении MapReduce и YARN

Лабораторная: Использование распределенного кэша.

Модуль 6 - Использование потоковой обработки (Hadoop Streaming)
Модуль 7 - Компоненты экосистемы Hadoop

Введение в Pig (высокоуровневая абстракция обработки данных):Ведение в Hive (СУБД на основе Hadoop, язык HiveQL).
Введение в Sqoop (взаимодействие с классическими реляционными базами).

Продажник

Поиск

Поиск

Основы Apache Hadoop [2022] [Специалист] [Сергей Шуйков]

Bot

Администратор