ML-инженер: от первой модели до продакшена [Максим Крупчатников] [stepik.org]

Bot

Администратор
Команда форума
23 Янв 2020
191,689
3,088
113

Складчина: ML-инженер: от первой модели до продакшена [Максим Крупчатников] [stepik.org]​

ml.png

Чему вы научитесь

  • Понимать ключевые принципы машинного обучения и типы задач (регрессия, классификация, кластеризация).
  • Готовить данные: очистка, обработка выбросов, кодирование категорий, масштабирование.
  • Работать с NumPy, Pandas и визуализировать данные (Matplotlib, Seaborn, Plotly).
  • Разрабатывать модели на Scikit-learn: от линейной регрессии до бустингов (XGBoost, LightGBM, CatBoost).
  • Оценивать модели по метрикам (accuracy, precision, recall, F1, ROC-AUC) и проводить валидацию.
  • Оптимизировать гиперпараметры (GridSearchCV, Optuna, Hyperopt) и собирать ансамбли.
  • Строить нейронные сети в PyTorch и TensorFlow (CNN, RNN, Transfer Learning).
  • Решать задачи рекомендаций, временных рядов, кластеризации и детекции аномалий.
  • Интерпретировать модели (SHAP, LIME) и учитывать bias/fairness.
  • Версионировать эксперименты и модели (MLflow, DVC).
  • Собирать REST API для ML-моделей (FastAPI).
  • Упаковывать и деплоить модели (Docker, Streamlit, облачные сервисы).
  • Настраивать мониторинг и перезапуск моделей в продакшене (Evidently, Prometheus).
  • Разрабатывать end-to-end ML-проекты и оформлять GitHub-портфолио.
  • Готовиться к собеседованиям на позиции ML/DS/ML Engineer (алгоритмы, SQL, системный дизайн).
О курсе
Этот курс — про инженерную сборку ML-систем под реальные условия продакшена. Вы пройдёте путь от чистого ноутбука и базовой модели до полностью работающего сервиса: с пайплайном данных, API, CI/CD и мониторингом.
Внутри — не только «как обучить модель», но и то, что важно в эксплуатации: версионирование экспериментов (MLflow, DVC), контейнеризация и деплой (Docker, FastAPI), автоматизация пайплайнов (Airflow), контроль качества (Evidently), алерты, retraining и управление зависимостями. Отдельные блоки посвящены оптимизации гиперпараметров, интерпретации моделей и принципам надёжности ML-сервисов.

Ничего лишнего: каждое занятие завершается практическим артефактом — обученной моделью, пайплайном, Docker-образом или эндпоинтом. Все проекты запускаются «из коробки» и воспроизводятся по инструкциям.

Итог курса
На выходе вы соберёте и задеплоите end-to-end ML-продукт: подготовка данных, обучение модели, REST API, контейнеризация, деплой в облако и мониторинг метрик. Получившийся проект можно добавить в портфолио и использовать как базу для продакшн ML-систем.

Для кого этот курс
Для всех, кто хочет уверенно войти в машинное обучение и доводить модели до продакшена.
Подойдёт студентам, начинающим аналитикам, разработчикам и Data Scientist’ам, которые хотят системно понять, как строятся реальные ML-сервисы — от идеи и данных до готового API и мониторинга.
Курс не требует глубоких математических знаний — всё нужное разбирается по ходу практики.

Программа курса
1. Введение в ML:

  • Что такое машинное обучение и где оно применяется
  • История и современные тренды
  • Классы задач ML (регрессия, классификация, кластеризация, генера
  • Настройка окружения (Python, Jupyter, библиотеки)
  • Git основы для ML-проектов
2. Математические основы ML:
  • Линейная алгебра для ML
  • Основы статистики
  • Теория вероятностей
  • Оптимизация и градиенты
3. Python для машинного обучения:
  • Основы Python для DS/ML
  • Типы данных и коллекции в Python
  • Работа с NumPy
  • Pandas: анализ табличных данных
  • Визуализация: Matplotlib и Seaborn
  • Plotly: интерактивные графики
  • Scikit-learn: базовые возможности
  • Практикум: первая модель классификации
4. Сбор и подготовка данных:
  • Источники данных: CSV, SQL, API, web scraping
  • Парсинг данных (requests, BeautifulSoup, Scrapy)
  • Работа с JSON, XML, Parquet
  • Очистка данных и обработка пропусков
  • Выбросы и методы их обработки
  • Масштабирование данных
  • Кодирование категориальных переменных
  • Балансировка классов
  • Практикум: подготовка датасета
5.Классические алгоритмы ML:
  • Линейная и логистическая регрессия
  • KNN и методы ближайших соседей
  • Деревья решений и Random Forest
  • SVM
  • Наивный Байес
  • Метрики качества: accuracy, precision, recall, F1, ROC-AUC
  • Валидация моделей
  • Практикум: сравнение алгоритмов
6. Ансамбли и настройки моделей:
  • Bagging и Random Forest
  • Boosting: AdaBoost, Gradient Boosting
  • XGBoost, LightGBM, CatBoost
  • GridSearchCV и RandomizedSearchCV
  • Байесовская оптимизация
  • Hyperopt, Optuna
  • Ensemble Stacking
  • Отслеживание экспериментов (MLflow)
  • Практикум: подбор гиперпараметров
7. Глубокое обучение:
  • Что такое нейронные сети и как они устроены
  • Функции активации, loss-функции, оптимизаторы
  • Регуляризация: Dropout, BatchNorm
  • PyTorch основы
  • TensorFlow/Keras основы
  • CNN для изображений
  • RNN и LSTM
  • Attention и Seq2Seq
  • Transfer Learning
  • Практикум: классификация изображений
8. Специализированные задачи ML:
  • Кластеризация: KMeans, DBSCAN
  • Обнаружение аномалий
  • Рекомендательные системы
  • Анализ временных рядов: ARIMA, Prophet, LSTM
  • Интерпретируемость моделей: SHAP и LIME
  • Bias и fairness в ML
  • Практикум: рекомендательная система
9. MLops и продакшн:
  • Жизненный цикл ML-проекта
  • Версионирование моделей (MLflow, DVC)
  • Сериализация моделей
  • REST API для моделей (FastAPI)
  • Docker для ML
  • Деплой: Streamlit и облако
  • Мониторинг моделей
  • Best practices в ML в продакшне
  • Практикум: end-to-end проект
10. Подготовка к собеседованиям:
  • Типовые вопросы по ML и DL
  • Математика на собеседовании
  • Алгоритмы и структуры данных
  • SQL для ML-инженеров
  • Python coding challenges
  • Системный дизайн ML-систем
  • Разбор реальных кейсов
  • Как оформить портфолио и GitHub
  • Итоговый проект
На выходе вы получите:
  • системное понимание ML и MLOps
  • рабочее портфолио (5+ проектов)
  • финальный end-to-end ML-сервис с автообновлением модели и мониторингом
Стоимость: 12990 руб.
Скрытая ссылка