Big Data для Data Science [Stepik Academy] [Александр Савченко, Анатолий Карпов]

Bot · 29 Янв 2020

Первая неделя. Введение в Big Data для Data Science
1. Зачем DS знать Big Data?

Зачем нужны DS?
Две проблемы в работе с данными для DS
Teamwork (Data Engineer + Data Science + Data Analyst)

2. Хранилища данных (SQL/NoSQL обзор)

SQL (PostgreSQL, MySQL)
NoSQL (Document, KV, Column, Graph)

3. Обработка данных (Hadoop/Spark)

Применение Hadoop
Применение Spark

4. Вебинар первой недели
Вторая неделя. Hadoop

1. Архитектура Hadoop и компоненты

2. HDFS

Свойства
NameNode/DataNode
Отказоустойчивость
Работа с HDFS

3. MapReduce парадигма (YARN/MR)
4. Реляционные БД и SQL
5. Hbase & Cassandra & ClickHouse
6. Hive
5. Вебинар второй недели
Третья неделя. Spark

1. Архитектура Spark и компоненты

Применение
Spark Core/SQL/Streams/GraphX/ML
Архитектура
Выполнение задач и мониторинг (master, mode...)

2. Core (RDD/DataFrame)

RDD
DataFrame
DataFrame Spark vs Pandas (link)

3. SparkSQL

Dataframe as SQL table

4. Spark Streaming & Apache Kafka

Применение
Spark Streaming
Apache Kafka

5. Вебинар третьей недели
Четвёртая неделя. Workflow

1. Архитектура хранилищ Data Warehouse vs Data Lake

Data Warehouse компоненты, плюсы и минусы
Data Lake компоненты, плюсы и минусы
Cloud AWS/GCP

2. Управление задачами

ETL & ELT
Apache Airflow

3. Вебинар четвёртой недели
Пятая неделя. SparkML

1. Модели и алгоритмы Spark ML

Spark ML Архитектура
Spark ML модели и алгоритмы
Spark ML - Практика
Spark ML - Задачи

Шестая неделя. BI Tools

Введение в Business Intelligence
SuperSet - Практика
SuperSet - Задачи

Продажник по ссылке

Поиск

Поиск

Big Data для Data Science [Stepik Academy] [Александр Савченко, Анатолий Карпов]

Bot

Администратор