Курс 20775А: Обработка Данных с Microsoft HDInsight [2020]
Специалист
Федор Самородов
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Курс читается на русском языке!
Спойлер: Вы научитесь
1. Описывать Hadoop, MapReduce, HDInsight;
2. Описывать типы кластеров HDInsight;
3. Описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
4. Описывать, как разрешать доступ пользователей к объектам;
5. Описывать конфигурации и архитектуру хранилища HDInsight;
6. Проводить мониторинг ресурсов с Operations management suite;
7. Выполнять запросы с Hive и Pig;
8. Описывать использование ETL и Spark;
9. Внедрять интерактивные запросы;
10. Выполнять интерактивную обработку данных с помощью Apache Phoenix;
11. Управлять задачами потоковой аналитики;
12. Создавать приложения для обработки структурированных потоков в Spark;
13. Использовать потоковые данные в Storm;
14. Объяснять, как работает язык R;
15. Преобразовывать и очищать наборы данных.
Спойлер: Содержание
Модуль 1. Начало работы с HDInsight
Модуль 2. Развертывание кластеров HDInsight
Модуль 3. Авторизация пользователей для доступа к ресурсам
Модуль 4. Загрузка данных в HDInsight
Модуль 5. Поиск и устранение неисправностей в HDInsight
Модуль 6. Внедрение пакетных решений
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
Модуль 8. Анализ данных со Spark SQL
Модуль 9. Анализ данных с помощью Hive и Phoenix
Модуль 10. Потоковая аналитика
Модуль 11. Spark Streaming и DStream API
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
Модуль 13. Анализ данных с помощью Spark SQL
Продажник
Специалист
Федор Самородов
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Курс читается на русском языке!
Спойлер: Вы научитесь
1. Описывать Hadoop, MapReduce, HDInsight;
2. Описывать типы кластеров HDInsight;
3. Описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
4. Описывать, как разрешать доступ пользователей к объектам;
5. Описывать конфигурации и архитектуру хранилища HDInsight;
6. Проводить мониторинг ресурсов с Operations management suite;
7. Выполнять запросы с Hive и Pig;
8. Описывать использование ETL и Spark;
9. Внедрять интерактивные запросы;
10. Выполнять интерактивную обработку данных с помощью Apache Phoenix;
11. Управлять задачами потоковой аналитики;
12. Создавать приложения для обработки структурированных потоков в Spark;
13. Использовать потоковые данные в Storm;
14. Объяснять, как работает язык R;
15. Преобразовывать и очищать наборы данных.
Спойлер: Содержание
Модуль 1. Начало работы с HDInsight
- Большие данные
- Hadoop
- MapReduce
- HDInsight
- Запросы к данным с Hive
- Запросы к данным с Excel
Модуль 2. Развертывание кластеров HDInsight
- Типы кластеров HDInsight
- Управление кластерами HDInsight
- Управление кластерами HDInsight с помощью PowerShell
- Создание кластера Hadoop в HDInsight
- Настройка HDInsight с помощью скрипта
- Настройка HDInsight с помощью Bootstrap
- Удаление кластера HDInsight
Модуль 3. Авторизация пользователей для доступа к ресурсам
- Недоменные кластеры
- Настройка кластера HDInsight, подключенного к домену
- Управление подключенным к домену кластером HDInsight
- Настройка кластера HDInsight, подключенного к домену
- Настроить политики Hive
Модуль 4. Загрузка данных в HDInsight
- Хранилище HDInsigh
- Средства загрузки данных
- Производительность и надёжность
- Загрузка данных с помощью Sqoop
- Загрузка данных с помощью AZcopy
- Загрузка данных с помощью ADLcopy
- Использование HDInsight для сжатия данных
Модуль 5. Поиск и устранение неисправностей в HDInsight
- Анализ журналов
- Журналы YARN
- Дампы кучи (Heap)
- Operations management suite
- Анализ журналов HDInsight
- Анализ журналов YARN
- Мониторинг ресурсов с Operations management suite
Модуль 6. Внедрение пакетных решений
- Хранилище Apache Hive
- Запросы с Hive и Pig
- Подключение HDInsight
- Загрузка данных в таблицу Hive
- Запрос данных в Hive и Pig
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
- Что такое Spark?
- ETL и Spark
- Производительность Spark
- Создание кластера HDInsight с доступом к хранилищу Data Lake
- Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
- Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
- Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8. Анализ данных со Spark SQL
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Модуль 9. Анализ данных с помощью Hive и Phoenix
- Внедрение интерактивных запросов для больших данных с помощью Hive
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
- Внедрение интерактивных запросов для больших данных с помощью Hive
- Проведение исследовательского анализа данных с помощью Hive
- Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10. Потоковая аналитика
- Потоковая аналитика
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
- Обработка потоковых данных из потоковой аналитики
- Управление задачами потоковой аналитики
Модуль 11. Spark Streaming и DStream API
- Обзор когнитивных служб
- DStream
- Создание приложений для обработки структурированных потоков в Spark
- Стабильность и визуализация
- Создание приложения Spark Streaming с помощью DStream API
- Создание приложения для обработки структурированных потоков в Spark
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
- Долгохранимые данные
- Потоковые данные в Storm
- Создание топологии Storm
- Настройка Apache Storm
- Потоковые данные в Storm
- Создание топологии Storm
Модуль 13. Анализ данных с помощью Spark SQL
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
- Внедрение интерактивных запросов
- Проведение исследовательского анализа данных
Продажник