Big Data для Data Science [Stepik Academy] [Александр Савченко, Анатолий Карпов]

Bot

Администратор
Команда форума
23 Янв 2020
165,979
2,930
113
[IMG]


Первая неделя. Введение в Big Data для Data Science

1. Зачем DS знать Big Data?

  • Зачем нужны DS?
  • Две проблемы в работе с данными для DS
  • Teamwork (Data Engineer + Data Science + Data Analyst)
2. Хранилища данных (SQL/NoSQL обзор)
  • SQL (PostgreSQL, MySQL)
  • NoSQL (Document, KV, Column, Graph)
3. Обработка данных (Hadoop/Spark)
  • Применение Hadoop
  • Применение Spark
4. Вебинар первой недели
Вторая неделя. Hadoop

1. Архитектура Hadoop и компоненты

2. HDFS

  • Свойства
  • NameNode/DataNode
  • Отказоустойчивость
  • Работа с HDFS
3. MapReduce парадигма (YARN/MR)
4. Реляционные БД и SQL
5. Hbase & Cassandra & ClickHouse
6. Hive
5. Вебинар второй недели

Третья неделя. Spark

1. Архитектура Spark и компоненты

  • Применение
  • Spark Core/SQL/Streams/GraphX/ML
  • Архитектура
  • Выполнение задач и мониторинг (master, mode...)
2. Core (RDD/DataFrame)
  • RDD
  • DataFrame
  • DataFrame Spark vs Pandas (link)
3. SparkSQL
  • Dataframe as SQL table
4. Spark Streaming & Apache Kafka
  • Применение
  • Spark Streaming
  • Apache Kafka
5. Вебинар третьей недели
Четвёртая неделя. Workflow

1. Архитектура хранилищ Data Warehouse vs Data Lake

  • Data Warehouse компоненты, плюсы и минусы
  • Data Lake компоненты, плюсы и минусы
  • Cloud AWS/GCP
2. Управление задачами
  • ETL & ELT
  • Apache Airflow
3. Вебинар четвёртой недели
Пятая неделя. SparkML

1. Модели и алгоритмы Spark ML

  • Spark ML Архитектура
  • Spark ML модели и алгоритмы
  • Spark ML - Практика
  • Spark ML - Задачи
Шестая неделя. BI Tools
  • Введение в Business Intelligence
  • SuperSet - Практика
  • SuperSet - Задачи

Продажник по ссылке
 
Сверху Снизу