Big Data Workshop: real-time обработка данных с использованием Spark и Kafka [2021] [МФТИ] [Олег Ивченко, Арсений Ташоян, Иван Пономарев]

Bot

Администратор
Команда форума
23 Янв 2020
190,816
3,074
113
Big Data Workshop: real-time обработка данных с использованием Spark и Kafka [2021]
МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
Олег Ивченко, Арсений Ташоян, Иван Пономарев
Что такое real-time обработка больших данных и когда она нужна?

1. Real-time обработка данных - метод обработки данных, при которых данные обрабатываются небольшими порциями. Работа с каждой порцией занимает минимальное время, поэтому мы всегда имеем актуальный результат.
2. Отличными примерами real-time обработки больших данных являются потоковая передача данных, радиолокационные системы, рекомендательные системы и банкоматы, где немедленная обработка имеет решающее значение для правильной работы системы.

Для кого:
1. Data engineers и архитекторы BigData приложений, которые интересуются методами realtime-обработки данных
2. Разработчики из других сфер, которым интересно получить Best practices в области realtime-обработки данных

Результаты обучения:
1. Получите опыт работы с распределенным брокером событий Kafka
2. Научитесь строить приложения потоковой обработки данных с помощью Kafka Streams

Содержание:
Модуль 1 - Основные концепции и архитектура Apache Kafka


Тема 1. Что такое Kafka и что она умеет
Тема 2. Что такое потоковая архитектура и на что способны потоковые обработчики
Тема 3. Основные инструменты разработчика

Модуль 2 - Kafka Streams API
Тема 4. Kafka Streams: основы и stateless трансформации. Конфигурация приложения
Тема 5. Трансформации с использованием локального состояния
Тема 6. Дуализм «поток—таблица» и табличные join-ы
Тема 7. Время и оконные операции

Продажник