Первая неделя. Введение в Big Data для Data Science
1. Зачем DS знать Big Data?
- Зачем нужны DS?
- Две проблемы в работе с данными для DS
- Teamwork (Data Engineer + Data Science + Data Analyst)
- SQL (PostgreSQL, MySQL)
- NoSQL (Document, KV, Column, Graph)
- Применение Hadoop
- Применение Spark
Вторая неделя. Hadoop
1. Архитектура Hadoop и компоненты
2. HDFS
- Свойства
- NameNode/DataNode
- Отказоустойчивость
- Работа с HDFS
4. Реляционные БД и SQL
5. Hbase & Cassandra & ClickHouse
6. Hive
5. Вебинар второй недели
Третья неделя. Spark
1. Архитектура Spark и компоненты
- Применение
- Spark Core/SQL/Streams/GraphX/ML
- Архитектура
- Выполнение задач и мониторинг (master, mode...)
- RDD
- DataFrame
- DataFrame Spark vs Pandas (link)
- Dataframe as SQL table
- Применение
- Spark Streaming
- Apache Kafka
Четвёртая неделя. Workflow
1. Архитектура хранилищ Data Warehouse vs Data Lake
- Data Warehouse компоненты, плюсы и минусы
- Data Lake компоненты, плюсы и минусы
- Cloud AWS/GCP
- ETL & ELT
- Apache Airflow
Пятая неделя. SparkML
1. Модели и алгоритмы Spark ML
- Spark ML Архитектура
- Spark ML модели и алгоритмы
- Spark ML - Практика
- Spark ML - Задачи
- Введение в Business Intelligence
- SuperSet - Практика
- SuperSet - Задачи
Продажник по ссылке