Пакет курсов "Data Scientist": Python + SQL + Машинное обучение [Stepik] [Влад Бурмистров]

Bot

Администратор
Команда форума
23 Янв 2020
207,394
3,147
113
269049.jpg

Вводная часть курса
  1. Добро пожаловать на курс!
  2. Материалы курса - ZIP-файлы для скачивания
  3. Установка Anaconda, Python, Jupyter Notebook
  4. Прочтите эту статью - Замечание о настройке среды разработки
  5. Настройка среды разработки
  6. Часто задаваемые вопросы
  7. Полезные советы об интерфейсе Stepik (опционально)

Опционально: Экспресс-курс по Python
  1. Пару слов об экспресс-курсе
  2. Экспресс-курс по Python - Часть 1
  3. Экспресс-курс по Python - Часть 2
  4. Экспресс-курс по Python - Часть 3
  5. Проверочные упражнения по Python
  6. Решения для проверочных упражнений по Python

Этапы работ по машинному обучению
  1. Этапы работ по машинному обучению

NumPy
  1. Обзор раздела про NumPy
  2. Массивы NumPy
  3. Индексация и выбор данных из массивов NumPy
  4. Операции в NumPy
  5. Проверочные упражнения по NumPy
  6. Решения для проверочных упражнений по NumPy

Pandas
  1. Обзор раздела про Pandas
  2. Series - Часть 1
  3. Series - Часть 2
  4. Датафреймы - Часть 1 - Создание датафреймов
  5. Датафреймы - Часть 2 - Основные атрибуты
  6. Датафреймы - Часть 3 - Работа с колонками
  7. Датафреймы - Часть 4 - Работа со строками
  8. Выборка данных по условию (Conditional Filtering)
  9. Полезные методы - Apply для одной колонки
  10. Полезные методы - Apply для нескольких колонок
  11. Полезные методы - Статистическая информация и сортировка данных
  12. Отсутствующие данные (missing data) - Обзор
  13. Отсутствующие данные (missing data) - Операции в Pandas
  14. Агрегация данных GROUP BY - Часть 1
  15. Агрегация данных GROUP BY - Часть 2 - Мульти-индекс
  16. Объединение датафреймов - Конкатенация
  17. Объединение датафреймов - Inner Merge
  18. Объединение датафреймов - Left и Right Merge
  19. Объединение датафреймов - Outer Merge
  20. Методы Pandas для текста
  21. Методы Pandas для даты и времени
  22. Input/Output в Pandas - CSV-файлы
  23. Input/Output в Pandas - HTML-таблицы
  24. Input/Output в Pandas - Excel-файлы
  25. Input/Output в Pandas - SQL базы данных
  26. Сводные таблицы в Pandas (pivot tables)
  27. Проверочные упражнения по Pandas
  28. Решения для проверочных упражнений по Pandas

Matplotlib
  1. Обзор раздела про Matplotlib
  2. Основы Matplotlib
  3. Объект Figure - принципы работы
  4. Объект Figure - код в Python
  5. Объект Figure - код в Python
  6. Subplots - несколько графиков рядом друг с другом
  7. Стилизация Matplotlib: легенды
  8. Стилизация Matplotlib: цвета и стили
  9. Дополнительные материалы по Matplotlib
  10. Проверочные упражнения по Matplotlib
  11. Решения для проверочных упражнений по Matplotlib

Seaborn
  1. Обзор раздела про Seaborn
  2. Scatterplots - Графики рассеяния (диаграммы рассеяния)
  3. Distribution Plots - Часть 1 - Типы графиков
  4. Distribution Plots - Часть 2 - Код в Python
  5. Categorical Plots - Статистики по категориям - Типы графиков
  6. Categorical Plots - Статистики по категориям - Код в Python
  7. Categorical Plots - Распределения по категориям - Типы графиков
  8. Categorical Plots - Распределения по категориям - Код в Python
  9. Графики сравнения - Типы графиков
  10. Графики сравнения - Код в Python
  11. Seaborn Grid
  12. Матричные графики
  13. Проверочные упражнения по Seaborn
  14. Решения для проверочных упражнений по Seaborn

Большой Проект по Визуализации Данных
  1. Обзор Проекта по Визуализации Данных
  2. Разбор решений проекта - Часть 1
  3. Разбор решений проекта - Часть 2
  4. Разбор решений проекта - Часть 3

Обзор Машинного Обучения
  1. Обзор раздела
  2. Зачем нужно машинное обучение
  3. Типы алгоритмов машинного обучения
  4. Процесс для обучения с учителем (supervised learning)
  5. (ОПЦИОНАЛЬНО) Дополнительная книга для чтения - ISLR

Линейная Регрессия
  1. Обзор раздела про линейную регрессию
  2. Линейная регрессия - История алгоритма
  3. Наименьшие квадраты
  4. Функция стоимости (Cost Function)
  5. Градиентный спуск (Gradient Descent)
  6. Простая линейная регрессия
  7. Обзор Scikit-Learn
  8. Scikit-Learn - Train Test Split
  9. Scikit-Learn - оценка работы модели
  10. Графики остатков - Residual Plots
  11. Внедрение модели и интерпретация коэффициентов
  12. Полиномиальная регрессия - теория
  13. Полиномиальная регрессия - создание признаков
  14. Полиномиальная регрессия - обучение и оценка модели
  15. Дилемма смещения-дисперсии (Bias-Variance Trade-Off)
  16. Полиномиальная регрессия - выбираем степень полинома
  17. Полиномиальная регрессия - внедрение модели
  18. Регуляризация - обзор
  19. Масштабирование признаков (feature scaling)
  20. Кросс-валидация - обзор
  21. Регуляризация - подготовка данных
  22. L2 Регуляризация - Ридж-регрессия - теория
  23. L2 Регуляризация - Ридж-регрессия - код в Python
  24. L1 Регуляризация - Лассо-регрессия - теория и код в Python
  25. L1 и L2 Регуляризация - Эластичная сеть Elastic Net
  26. Обзор данных для проверочного проекта по линейной регрессии

Конструирование признаков (Feature Engineering) и подготовка дан
  1. Обзор Feature Engineering
  2. Работа с выбросами (outliers)
  3. Работа с отсутствующими данными (missing data) - Часть 1
  4. Работа с отсутствующими данными (missing data) - Часть 2
  5. Работа с отсутствующими данными (missing data) - Часть 3
  6. Работа с категориальными переменными

Кросс-валидация и Проверочный проект по линейной регрессии
  1. Обзор раздела про кросс-валидацию
  2. Разбиение Train | Test Split
  3. Разбиение Train | Validation | Test Split
  4. Кросс-валидация - cross_val_score
  5. Кросс-валидация - cross_validate
  6. Поиск по сетке - Grid Search
  7. Случайный поиск - Random Search
  8. Обзор проверочного проекта по линейной регрессии
  9. Решения для проверочного проекта по линейной регрессии

Логистическая регрессия
  1. Обзор раздела про логистическую регрессию
  2. Теория логистической регрессии - Часть 1 - Логистическая функция
  3. Теория логистической регрессии - Часть 2 - От линейной к логист.
  4. Теория логистической регрессии - Часть 3 - Математика перехода
  5. Теория логистической регрессии - Часть 4 - Поиск графика
  6. Логистическая регрессия в Scikit-Learn - Часть 1 - EDA
  7. Логистическая регрессия в Scikit-Learn - Часть 2 - Модель
  8. Метрики классификации - Confusion Matrix и Accuracy
  9. Метрики классификации - Precision, Recall и F1-Score
  10. Метрики классификации - ROC-кривые
  11. Логистическая регрессия в Scikit-Learn - Часть 3 - Оценка модели
  12. Мульти-классовая классификация - Логистическая регрессия - EDA
  13. Мульти-классовая классификация - Логистическая регрессия -Модель
  14. Проверочный проект по логистической регрессии
  15. Решения для проверочного проекта по логистической регрессии

Метод К-ближайших соседей (KNN - K-Nearest Neighbors)
  1. Обзор раздела про метод К-ближайших соседей
  2. Теория метода К-ближайших соседей
  3. KNN: пишем код в Python - Часть 1
  4. KNN: пишем код в Python - Часть 2
  5. Проверочные упражнения по KNN
  6. Решения для проверочных упражнений по KNN

Метод опорных векторов (SVM - Support Vector Machines)
  1. Обзор раздела про метод опорных векторов
  2. История метода опорных векторов
  3. Теория метода опорных векторов - Гиперплоскости и зазоры
  4. Теория метода опорных векторов - ядра (kernels)
  5. Теория метода опорных векторов - "kernel trick" и математика
  6. SVM в Scikit-Learn для задач классификации - Часть 1
  7. SVM в Scikit-Learn для задач классификации - Часть 2
  8. SVM в Scikit-Learn для задач регрессии
  9. Проверочные упражнения по методу опорных векторов
  10. Решения для проверочных упражнений по методу опорных векторов

Деревья решений - Decision Trees
  1. Обзор раздела про деревья решений
  2. Деревья решений - История
  3. Деревья решений - Терминология
  4. Деревья решений - метрика "Gini Impurity"
  5. Построение деревьев решений с помощью Gini Impurity - Часть 1
  6. Построение деревьев решений с помощью Gini Impurity - Часть 2
  7. Код в Python для деревьев решений - Часть 1 - Данные
  8. Код в Python для деревьев решений - Часть 2 - Модель

Случайные леса - Random Forests
  1. Обзор раздела про случайные леса
  2. История и мотивация создания случайных лесов
  3. Гиперпараметры случайного леса - Обзор
  4. Гиперпараметры случайного леса - Количество деревьев и Признаков
  5. Гиперпараметры случайного леса - Bootstrapping и oob_score
  6. Классификация данных с помощью RandomForestClassifier - Часть 1
  7. Классификация данных с помощью RandomForestClassifier - Часть 2
  8. Регрессия с помощью RandomForestRegressor - Часть 1 - Данные
  9. Регрессия с помощью RandomForestRegressor - Часть 2 - Модели 1
  10. Регрессия с помощью RandomForestRegressor - Часть 3 - Модели 2
  11. Регрессия с помощью RandomForestRegressor - Часть 4 - Модели 3

Бустинг и Расширяемые деревья - Boosted Trees
  1. Обзор раздела про бустинг
  2. История возникновения бустинга
  3. AdaBoost - Теория - Как работает адаптивный бустинг
  4. AdaBoost - Код в Python - Данные
  5. AdaBoost - Код в Python - Модель
  6. Градиентный бустинг - Теория
  7. Градиентный бустинг - Пишем код в Python

Проверочный проект по моделям обучения с учителем (Supervised Le
  1. Обзор проверочного проекта
  2. Разбор решений - Часть 1 - Исследование данных (EDA)
  3. Разбор решений - Часть 2 - Анализ оттока (Churn Analysis)
  4. Разбор решений - Часть 3 - Модели на основе деревьев решений

Natural Language Processing и Наивный Байесовский Классификатор
  1. Обзор раздела про NLP и Наивный Байесовский алгоритм
  2. Наивный Байесовский алгоритм - Часть 1 - Теорема Байеса
  3. Наивный Байесовский алгоритм - Часть 2 - сам алгоритм
  4. Извлечение признаков из текста - Теория
  5. Извлечение признаков из текста, "Мешок слов" - пишем код вручную
  6. Извлечение признаков из текста с помощью Scikit-Learn
  7. Классификация текста - Часть 1
  8. Классификация текста - Часть 2
  9. Проверочные упражнения по классификации текста
  10. Решения для проверочных упражнений по классификации текста

Машинное обучение без учителя - Unsupervised Learning
  1. Обзор обучения без учителя - Unsupervised Learning

Кластеризация К-Средних - K-Means Clustering
  1. Обзор раздела про кластеризацию К-средних
  2. Принципы кластеризации данных (без привязки к алгоритму)
  3. Теория кластеризации К-средних
  4. Кластеризация К-средних - Пишем код - Часть 1
  5. Кластеризация К-средних - Пишем код - Часть 2
  6. Выбираем количество кластеров К - Теория
  7. Выбираем количество кластеров К - Пишем код в Python
  8. Квантование цветов - Теория
  9. Квантование цветов - Пишем код в Python
  10. Проверочные упражнения по кластеризации К-средних
  11. Решения для проверочных упражнений - Часть 1
  12. Решения для проверочных упражнений - Часть 2
  13. Решения для проверочных упражнений - Часть 3

Иерархическая кластеризация данных
  1. Обзор раздела про иерархическую кластеризацию
  2. Теория и интуиция иерархической кластеризации
  3. Иерархическая кластеризация - Пишем код, часть 1 - Данные
  4. Иерархическая кластеризация - Пишем код, часть 2 - Scikit-Learn

DBSCAN - Кластеризация на основе плотности данных
  1. Обзор раздела про кластеризацию DBSCAN
  2. Теория алгоритма DBSCAN
  3. Сравниваем DBSCAN и K-Means Clustering
  4. Ключевые гиперпараметры DBSCAN - Теория
  5. Ключевые гиперпараметры DBSCAN - код в Python
  6. Проверочные упражнения по DBSCAN
  7. Решения для проверочных упражнений по DBSCAN

Метод главных компонент (PCA - Principal Component Analysis)
  1. Обзор раздела про метод главных компонент
  2. Теория метода главных компонент - Часть 1 - История и интуиция
  3. Теория метода главных компонент - Часть 2 - Математика
  4. Реализация метода главных компонент вручную
  5. Метод главных компонент в Scikit-Learn
  6. Проверочные упражнения по методу главных компонент
  7. Решения для проверочных упражнений по методу главных компонент

Резюме курса
  1. Пройдите короткий тест
  2. Резюме курса
  3. Финальные шаги