Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]

Bot

Администратор
Команда форума
23 Янв 2020
192,453
3,100
113

Складчина: Data Engineering Fast‑Track: Kafka → Airflow → Spark [Stepik] [Алексей Малышкин]​

2025-10-05_022240.png

Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов.
Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

Чему вы научитесь

  • Проектировать конвейер данных Kafka → Spark → Lakehouse под управлением Airflow.
  • Поднимать локальное окружение через Docker Compose и воспроизводимо деплоить пайплайны.
  • Делать batch и streaming в Spark, настраивать окна и watermark.
  • Читать/писать данные в Parquet и табличные форматы Delta/Iceberg, избегать «small files».
  • Настраивать DAG: расписания, retries, SLA, catchup, datasets.
  • Подключать источники/приёмники через Kafka Connect/Schema Registry, понимать EOS/idempotency.
  • Писать базовые тесты качества данных (freshness/completeness) и алерты по свежести.
  • Выполнять backfill и разруливать инциденты (сломалась схема, отставание потребителей).
О курсе
Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA.
Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill.
Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается.

Для кого этот курс

  • Специалисты, стремящиеся перейти в Data Engineering через практику: backend-разработчики, аналитики, DevOps, BI.
  • ML/DS-инженеры, которым важно надёжно поставлять и перерабатывать данные в проде.
  • Тимлиды и архитекторы, проектирующие пайплайны данных, стриминг и Lakehouse.
  • Мотивированные обучающиеся с опытом Python и интересом к построению дата-инфраструктуры.
Программа курса
Введение в Data Engineering
  1. Введение в курс
  2. Роль инженера данных
  3. Обзор инструментов: Kafka, Airflow, Spark
  4. Среда разработки и инструменты
Apache Kafka — основы
  1. Архитектура и ключевые понятия Kafka
  2. Развёртывание и конфигурация Kafka
  3. Управление топиками и партициями
  4. Продюсеры и консюмеры
Apache Kafka — продвинутые темы
  1. Модели доставки и группы консюмеров
  2. Streams API
  3. Connect API
  4. Тюнинг и масштабирование Kafka
Apache Airflow — основы
  1. Концепция DAG и организация кодовой базы
  2. Операторы и сенсоры
  3. Планирование и параметры DAG
  4. Переменные, подключения и XCom
Apache Airflow — продвинутые возможности
  1. Управление зависимостями и надёжность
  2. Пользовательские операторы, сенсоры и плагины в Airflow
  3. Интеграция Airflow с внешними сервисами
  4. Мониторинг, интерфейс Airflow и best practices
Apache Spark — основы
  1. Архитектура Apache Spark и RDD
  2. Spark SQL, DataFrame и Dataset
  3. Join’ы и перекос данных: производительность без магии
  4. Lakehouse с Delta/Iceberg: upsert, compaction, time-travel
Apache Spark — потоковая обработка и интеграция с Kafk
  1. Введение в Structured Streaming
  2. Чтение и запись данных из Kafka
  3. Оконные операции и управление временем
  4. Stateful-операции и stream-static join
Проектный модуль: end‑to‑end пайплайн
  1. Итоговый проект: построение пайплайна
Преподаватель: Алексей Малышкин
Аналитик-разработчик с опытом работы в крупных компаниях. Победитель олимпиад по математике, программированию и анализу данных.
Что вы получаете

  • Рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow, который разворачивается из Docker Compose
  • Репозиторий курса: docker-compose, примеры кода, готовые DAG, конфиги Kafka/Schema Registry/Kafka Connect
  • Мини-проект в портфолио: поток из Kafka в Delta/Iceberg + batch-пересчёт (backfill) + SLA/алерты
  • Чек-листы продакшена: ключи/партиции, окна и watermark, small files/компакции, мониторинг lag и задержек
  • Шаблоны: Airflow-DAG для ETL/ELT, Spark-jobs (batch/stream), базовые проверки качества данных (freshness/completeness)
  • Шпаргалки и схемы по Kafka, Airflow, Spark и табличным форматам (Delta/Iceberg)
  • Задачи и самопроверки двух уровней сложности (Starter/Pro)
  • Подготовительный мини-модуль для самоучек: краткий recap Python/SQL/Git/Bash/Docker (4–6 часов)
  • Пошаговые инструкции с разбором типичных ошибок и анти-паттернов
  • Оперативные ответы в комментариях к курсу
  • Сертификат по завершении
Цена: 5990 руб.
Скрытая ссылка