Складчина: ML-инженер: от первой модели до продакшена [stepik.org] [Максим Крупчатников]
Чему вы научитесь
- Понимать ключевые принципы машинного обучения и типы задач (регрессия, классификация, кластеризация).
- Готовить данные: очистка, обработка выбросов, кодирование категорий, масштабирование.
- Работать с NumPy, Pandas и визуализировать данные (Matplotlib, Seaborn, Plotly).
- Разрабатывать модели на Scikit-learn: от линейной регрессии до бустингов (XGBoost, LightGBM, CatBoost).
- Оценивать модели по метрикам (accuracy, precision, recall, F1, ROC-AUC) и проводить валидацию.
- Оптимизировать гиперпараметры (GridSearchCV, Optuna, Hyperopt) и собирать ансамбли.
- Строить нейронные сети в PyTorch и TensorFlow (CNN, RNN, Transfer Learning).
- Решать задачи рекомендаций, временных рядов, кластеризации и детекции аномалий.
- Интерпретировать модели (SHAP, LIME) и учитывать bias/fairness.
- Версионировать эксперименты и модели (MLflow, DVC).
- Собирать REST API для ML-моделей (FastAPI).
- Упаковывать и деплоить модели (Docker, Streamlit, облачные сервисы).
- Настраивать мониторинг и перезапуск моделей в продакшене (Evidently, Prometheus).
- Разрабатывать end-to-end ML-проекты и оформлять GitHub-портфолио.
- Готовиться к собеседованиям на позиции ML/DS/ML Engineer (алгоритмы, SQL, системный дизайн).
Этот курс — про инженерную сборку ML-систем под реальные условия продакшена. Вы пройдёте путь от чистого ноутбука и базовой модели до полностью работающего сервиса: с пайплайном данных, API, CI/CD и мониторингом.
Внутри — не только «как обучить модель», но и то, что важно в эксплуатации: версионирование экспериментов (MLflow, DVC), контейнеризация и деплой (Docker, FastAPI), автоматизация пайплайнов (Airflow), контроль качества (Evidently), алерты, retraining и управление зависимостями. Отдельные блоки посвящены оптимизации гиперпараметров, интерпретации моделей и принципам надёжности ML-сервисов.
Ничего лишнего: каждое занятие завершается практическим артефактом — обученной моделью, пайплайном, Docker-образом или эндпоинтом. Все проекты запускаются «из коробки» и воспроизводятся по инструкциям.
Итог курса
На выходе вы соберёте и задеплоите end-to-end ML-продукт: подготовка данных, обучение модели, REST API, контейнеризация, деплой в облако и мониторинг метрик. Получившийся проект можно добавить в портфолио и использовать как базу для продакшн ML-систем.
Для кого этот курс
Для всех, кто хочет уверенно войти в машинное обучение и доводить модели до продакшена.
Подойдёт студентам, начинающим аналитикам, разработчикам и Data Scientist’ам, которые хотят системно понять, как строятся реальные ML-сервисы — от идеи и данных до готового API и мониторинга.
Курс не требует глубоких математических знаний — всё нужное разбирается по ходу практики.
Программа курса:
1. Введение в ML
2. Математические основы ML
3. Python для машинного обучения
4. Сбор и подготовка данных
5. Классические алгоритмы ML
6. Ансамбли и настройки моделей
7. Глубокое обучение
8. Специализированные задачи ML
9. MLops и продакшн
10. Подготовка к собеседованиям
Спойлер: Подробная программа
1. Введение в ML:
- Что такое машинное обучение и где оно применяется
- История и современные тренды
- Классы задач ML (регрессия, классификация, кластеризация, генера
- Настройка окружения (Python, Jupyter, библиотеки)
- Git основы для ML-проектов
- Линейная алгебра для ML
- Основы статистики
- Теория вероятностей
- Оптимизация и градиенты
- Основы Python для DS/ML
- Типы данных и коллекции в Python
- Работа с NumPy
- Pandas: анализ табличных данных
- Визуализация: Matplotlib и Seaborn
- Plotly: интерактивные графики
- Scikit-learn: базовые возможности
- Практикум: первая модель классификации
- Источники данных: CSV, SQL, API, web scraping
- Парсинг данных (requests, BeautifulSoup, Scrapy)
- Работа с JSON, XML, Parquet
- Очистка данных и обработка пропусков
- Выбросы и методы их обработки
- Масштабирование данных
- Кодирование категориальных переменных
- Балансировка классов
- Практикум: подготовка датасета
- Линейная и логистическая регрессия
- KNN и методы ближайших соседей
- Деревья решений и Random Forest
- SVM
- Наивный Байес
- Метрики качества: accuracy, precision, recall, F1, ROC-AUC
- Валидация моделей
- Практикум: сравнение алгоритмов
- Bagging и Random Forest
- Boosting: AdaBoost, Gradient Boosting
- XGBoost, LightGBM, CatBoost
- GridSearchCV и RandomizedSearchCV
- Байесовская оптимизация
- Hyperopt, Optuna
- Ensemble Stacking
- Отслеживание экспериментов (MLflow)
- Практикум: подбор гиперпараметров
- Что такое нейронные сети и как они устроены
- Функции активации, loss-функции, оптимизаторы
- Регуляризация: Dropout, BatchNorm
- PyTorch основы
- TensorFlow/Keras основы
- CNN для изображений
- RNN и LSTM
- Attention и Seq2Seq
- Transfer Learning
- Практикум: классификация изображений
- Кластеризация: KMeans, DBSCAN
- Обнаружение аномалий
- Рекомендательные системы
- Анализ временных рядов: ARIMA, Prophet, LSTM
- Интерпретируемость моделей: SHAP и LIME
- Bias и fairness в ML
- Практикум: рекомендательная система
- Жизненный цикл ML-проекта
- Версионирование моделей (MLflow, DVC)
- Сериализация моделей
- REST API для моделей (FastAPI)
- Docker для ML
- Деплой: Streamlit и облако
- Мониторинг моделей
- Best practices в ML в продакшне
- Практикум: end-to-end проект
- Типовые вопросы по ML и DL
- Математика на собеседовании
- Алгоритмы и структуры данных
- SQL для ML-инженеров
- Python coding challenges
- Системный дизайн ML-систем
- Разбор реальных кейсов
- Как оформить портфолио и GitHub
- Итоговый проект
- системное понимание ML и MLOps
- рабочее портфолио (5+ проектов)
- финальный end-to-end ML-сервис с автообновлением модели и мониторингом
Стоимость: 12990 руб.
Скрытая ссылка