Складчина: Анализ данных Python: с 0 до уверенного бизнес-пользователя [Stepik] [Никита Сергеев]
Чему вы научитесь
- Основы Python, типов данных и вычислений
- ETL (извлечение, преобразования\подготовка\вычисления и загрузка данных) - Pandas
- Визуализация данных (на основе Pandas под капотом которого Matplot + немного Seaborn и чуточку Plotly)
- Описательные статистики (Pandas)
- Сравнение групп (тесты и проверка гипотез) - Pingouin
- Поиск скрытых связей между переменными - Pingouin
- Классификация объектов, предсказание их принадлежности к определенной группе sklearn
- Анализ временных рядов и прогнозирование будущих трендов - statsmodels.TSA
Предмет данного курса - простой, лаконичный, удобочитаемый и кроссплатформенный язык программирования Python. Он используется в разработке веб-приложений, анализе данных, искусственном интеллекте, автоматизации, кибербезопасности и многих других областях - и наша область его применения в данном курсе это анализ данных
В вакансиях технических компаний за последние 3 года Python входит в ТОП-1 требуемых технических навыков в области Data Science и Аналитика Данных
Этот курс - это способ максимально быстро ознакомиться с возможностями Python с точки зрения аналитика (бизнес-пользователя). Он спроектирован так, чтобы в самый короткий строк и без излишеств сделать из новичка уверенного бизнес-пользователя основных возможностей Python для анализа данных
Освещенных в курсе возможностей Python достаточно для решения основных бизнес-задач по извлечению, преобразованию\подготовке, визуализации и анализу данных данных. Обучение заточено не просто на заучивание команд и синтаксиса Python, а и на то, чтобы научить "думать на Python" (т.е., сформировать понимание логики его работы и логики разных конкретных библиотек).
Курс сфокусирован не только и не столько на демонстрацию экрана с кодом в ~200 лекциях, а на практическое освоение языка. Поэтому он насыщен практическими заданиями (более 170 ЗАДАНИЙ!), которые не только отлично прорабатывают лекционный материал, а формируют прикладные навыки использования Python
Курс от профессионала в анализе данных: владеющего навыками от обработки данных в MS Excel (вкл. надстройки семейства Power) и статанализа с предиктивной аналитикой в спецпрограммах (SPSS, JASP, Statistica...) - и до языков и методов Data Science применяемых в разработке систем "искусственного интеллекта" (Python, R).
Создатель курса - автор популярной бизнес -литературы (доступна в крупнейших магазинах: Amazon, Ozon, ЛитРес, Ridero...). В частности, автор одного из русскоязычных бестселлеров в категории "Анализ данных" - книги "Аналитика и Data Science для не-аналитиков и даже 100% гуманитариев", а также одной из первых книг отечественных авторов по работе с компонентом ETL Power Query для Excel и Power BI "Power Query: учебное руководство";
Невзирая на массу современных инструментов визуальных инструментов подключения и извлечения данных из баз - Python популярен не только в среде ИТшников, а и обычных бизнес-пользователей (в первую очередь аналитиков). Это как раз тот навык, потраченное на изучение которого время отличная инвестиция!
Курс НЕ ЗАТОЧЕН под конкретную предметную область (учет, коммерция, розница, маркетинг, закупки, проекты, кадры, медицина, строительство и т.д.): он формирует чистое понимание, знания и навыки Python для анализа данных - и с этими знаниями Вы, как эксперт в СВОЕЙ СОБСТВЕННОЙ ПРЕДМЕТНОЙ ОБЛАСТИ (отрасли, дисциплине, сфере, функции...), сможете легко их применить для решения именно Ваших прикладных задач
Обратите внимание, что курс именно о языке Python для бизнес-пользователей и только под задачи анализа данных: а поэтому в нем НЕ БУДЕТ разбора (а если где-то вдруг будет, то поверхностный минимум достаточного для целей данного курса и без углубления в тему) использование его в таких направлениях, к примеру:
- Web-разработка
- GUI-разработка
- разработка ПО
- ООП (объектно-ориентированного программирования) и понятия классов, связанных с ними объектов, разбора полиморфизма, наследования, абстракции, инкапсуляции
- Статистика и теория вероятности
- и т.д.
- Планирующим двигаться в ИТ: будущим программистам, тестировщикам, data science-специалистам...
- Профессионалам любых специальностей (обычным бизнес-пользователям), интересующихся темой анализа данных
- Аналитикам данных любой области \ отрасли
- Базовое умение устанавливать приложения\ПО на свой ПК следуя инструкциям - для прохождения курса нужно будет установить Anaconda\Jupiter Lab (или как альтернатива уметь самостоятельно пользоваться онлайн инструментами совместимыми с Python)
- Около5 Гб свободного места на ПК для установки рабочей среды (бесплатной)
- Навыки базовых операций с файлами в офисных приложениях: умение открывать, сохранять, удалять, переименовывать, копировать\вставлять, вырезать и т.д.
- Понимание базовых математических операций, правил учета скобок; желательно еще основы текстовых операций, а также работы с датами. Понимание структуры\элементов таблицы (строки, столбцы, различать заголовки столбцов и значения на пересечении строк и столбцов). В идеале ориентировочное знание\понимание табличных вычислений (по столбцу целиком) и преобразований (транспонирование, отмена свертывания\мельтинг, join'ы и union'ы....)
- Никакой специализированной предварительной подготовки в плане основ программирования или теории вероятности с матстатистикой от студента не требуется - курс реально "с нуля". Важно только желание освоить Python для анализа данных.
- Желательно понимание структуры файлов\источников данных с которыми Вы работаете на практике (например, что книга Excel содержит внутри Листы; а XML-файл имеет узлы; а SQL база состоит из схем; и т.д.)
- Желательно знание что такое таблицы и диаграммы (визуализации), и умение их "читать" (как минимум базовые: столбиковые, круговые, графики\линии, точечные)
- Введение
- Знакомство с основами Python, его синтаксисом и мат. логикой
- Углубление в основы: основные управляющие потоком конструкции
- О библиотеках: предназначение, подключения, использования
- Основы для быстрого старта: как это все работает в комплексе
- ETL: извлечение, преобразование и загрузка данных
- Описательные статистики
- Визуализации данных
- Анализ данных: Сравнение групп
- Анализ данных: связи между переменными
- Анализ данных: классификация
- Мидквэл: анализ и прогнозирование временных рядов statsmodels.tsa
- Небольшой факультатив: обзор других отдельных аналитических возм.
- Послесловие
Введение
- Пару слов о курсе
- Просто зашли поинтересоваться?
- Как мы будем учиться
- О языке Python
- Популярные рабочие среды для Python
- Знакомство с Jupyter Labs
- Работа ячеек и ядра в Jupiter Labs
- Нумерация и извлечение элементов в Python
- Основы и особенности написания и оформления кода: синтаксис
- Типы данных
- Переменные
- Динамическая типизация
- Числовой калькулятор
- Текстовые вычисления
- А как дела с датами?
- Мидквэл-лекция о модулях
- Операторы сравнения
- Логические операторы: and, or, not
- Оператор принадлежности: in \ not in
- Условные вычисления: if
- Функции: def
- Не о Half-Life: lambda-выражения
- Итоги знакомства: что из этих основ может пригодиться в анализе
- Что это за инструкции\конструкции
- Условное принятие решений: логика if, elif, else
- Условное принятие решений: паттерны\шаблоны match
- Комбинация конструкций (на примере match и if)
- Циклы: for и while
- Управление\изменение поведения циклов: break и continue
- Обработчики исключений\ошибок: try...except
- Управление ресурсами: with (проба работы с файлами)
- Итоги инструкций контроля потоков выполнения программы
- Что такое библиотеки или "забудьте (почти)все что мы учили ранее
- Массивы и Таблицы
- NumPy и SciPy для вычислений
- Pandas и Polars: предназначение, отличия, подключение
- Matplotlib, Seaborn, Plotly:предназначение, отличия, подключение
- StatsModels с TSA: предназначение, отличия, подключение
- ML (scikit-learn) с бустингом (...boost)
- Вызов подсказок и справок по объектам в библиотеках
- Библиотечные итоги
- Большая картина: врубаемся что вообще происходит
- Подготовка к написанию кода: подключаем библиотеки
- Загрузка данных
- Преобразование: очистка данных
- Преобразование: добавление новых столбцов
- Анализ данных: описательные статистики
- Визуализация данных
- Анализ данных: аналитическая статистика
- Итоги раздела
- Общий процесс работы с данными и место в нем ETL
- Series, DataFrame, векторные вычисл.(обработка столбцов целиком)
- Навигация и отбор из датафрейма нужных данных
- Подключение к csv
- Подключение к Excel
- Самостоятельное задание: проба загрузки таблицы из SPSS
- ДатаФрейм и его Представление в Jupyter
- Вывод ВСЕХ строк и столбцов
- Выгрузка только нужных столбцов
- Мидквел:мастер-класс по базовому пониманию справочных материалов
- Изменения названий\имен\заголовков столбцов
- Перемещение\Изменение порядка столбцов
- Типы данных для столбцов: int, float, datetime, string
- Выбор столбцов по типу данных
- Систематизация чтений\подключений
- Вычисление новых столбцов: числовые столбцы
- Вычисление новых столбцов: разделение и объединение столбцов
- Вычисление новых столбцов: текстовые столбцы
- Вычисление новых столбцов: столбцы с датами
- Вычисление новых столбцов: условный столбец\перекодировка
- Вместо условного столбца: разбиение значений на группы (cut)
- Из одного столбца сделать много столбцов с 0\1
- Удаление лишних\ненужных столбцов
- Систематизация работы со столбцами
- Тест по столбцам
- Оставление нужных строк сверху\снизу таблицы
- Удаление лишних\ненужных строк (порядок, дубликаты)
- Фильтрация\Отбор строк для анализа: условие c | и &
- Тест по строкам
- Стратегии работы с пустыми значениями
- Удаление пустых строк и столбцов
- Заполнение пустых значений другими значениями
- Заполнение вниз\вверх
- Интерполяция "пустышек" во времени (периодичные данные)
- Комплексные функционалы для АНАЛИЗА пропущенных значений
- Тест по пропускам
- Стратегии проверки данных: опечатки, смысл, не тот тип
- Мидквел-лекция: Основы оконных вычислений
- Группировка\Агрегирование: понижение гранулярности таблицы
- Транспонирование DataFrame\таблицы
- Сводные таблицы (Pivot, Pivot Table, Crosstab)
- Мельтинг\Отмена свертывания\Unpivot
- Тест по изменению таблицы
- Слияние нескольких массивов\таблиц: добавление строк
- Слияние нескольких таблиц: добавление столбцов (с исп.ключей)
- Тест по джойнам и юнионам
- Сохранение данных в файл
- Итоги загрузки, очистки и подготовки данных
- Что такое описательные статистики
- Частотный анализ (частотное распределение)
- Частоты под несколько переменных
- 4 группы мер в описательной статистике
- Меры центральной тенденции: среднее, мода, медиана
- Меры точек относительного разделения : процентили и квартили
- Меры рассеивания\вариативности: дисперсия, ст.отклонение, размах
- IQR и выбросы\outliers
- Комлексный анализ описательных статистик: describe
- Ящик с усами: визуал для среднего,квартилей,мин и макс, выбросов
- Меры формы распределения: асимметрия и эксцесс
- Итоги раздела
- Что такое визуализации?
- Воспоминания как строятся диаграммы
- Агрегирующие и неагрегирующие диаграммы
- "Плавный" аналог гистограммы: агрегирующая KDE
- Столбиковые\Линейчатые диаграммы: вертикальные и горизонтальные
- Разбор и управление элементами диаграмм
- Цветовое форматирование визуальных элементов
- Группировка с распаковкой индекса: метод .groupby() с .unstack()
- Столбцы на разные диаграммы (subplots)
- Столбиковые диаграммы: с группировкой и с наложением
- Погрешности\Коридор прогноза на диаграммах
- График
- Вторая Y-ось
- Комбинированная диаграмма
- График\диаграмма с областями
- Круговые диаграммы
- Диаграмма рассеивания\точечная
- Превращаем точки в "пузыри"
- Матрица скаттерплотов
- Как забрать диаграммы в Power Point
- Таблица - также визуальный элемент
- Подводим итоги визуализаций
- Основные блоки задач, решаемые при анализе данных
- Генеральная совокупность и выборка
- Гипотезы и вероятность ошибки\значимость
- Параметрика\непараметрика
- Проверка распределения "на нормальность"
- Зависимые (парные, связанные) и Независимые группы
- Тест: Систематизация основных понятий
- Сравнение независимых групп: 2 группы, параметрика
- О навигации по таблицам результатов (вспомним датафреймы)
- Сравнение независимых групп: 2 группы, непараметрика
- Тест 2-х групп (почти самостоятельное задание)
- Сравнение незав. групп:более 2-х групп,параметрика,с пост-хок
- Сравнение незав. групп:более 2-х групп,непараметрика, с пост-хок
- Сравнение парных\связанных групп: 2 группы, параметрика
- Сравнение парных\связанных групп: 2 группы, непараметрика
- Сравнение парных групп: более 2-х групп, параметрика, с пост-хок
- Помиксуем-ка мы сами...: парные и независимые группы вместе
- Сравнение парных групп: более 2-х групп,непараметрика,с пост-хок
- Таблицы сопряженности: Хи2 для категориальных признаков, независ
- Таблицы сопряженности: МакНемар для категор. признаков в завис.
- Разговоры о красивом
- Групповые итоги
- Рассуждения о связях между переменными
- Сила, Направленность и Значимая\Неслучайна статистическая связь
- Корреляции
- Мидквел: многомерность выбросов
- Мидквел: многомерная нормальность
- Мидквел: корреляционная красота
- Корреляция для повторных замеров
- Ложные (частные\получастные) корреляции
- Анализ надежности-согласованности
- Линейная регрессия
- Понятие нормализации данных
- А если связи нелинейные?
- Квантильная регрессия (библиотека statsmodels)
- Что такое факторный анализ
- Факторный анализ (библиотека factor_analyzer)
- Итоги раздела
- Переходим к классификации и кластеризации
- Кто учит алгоритмы? Обучение с учителем
- Бинарная логистическая регрессия
- Как понять хороша ли модель: Precision, Recall, ROC-AUC
- Мультиномиальная логистическая регрессия
- Порядковая логистическая регрессия
- Ближайшие соседи k-NN
- Деревья решений
- Ансамбли: RandomForest (случайный лес) как бэггинг подход
- Ансамбли: бустинги - каждая модель исправляет предыдущую
- А если никто не учит? Обучение без учителя.
- Кластерный анализ методом К-средних
- Кластеризация на основе плотности DBSCAN
- Визуализация кластеров на плоскости t-SNE
- Нейросети как сложные классификаторы
- Многослойный перцептрон MLP: с учителем
- Болцмановские машины (RBM): без учителя
- Итоги раздела
- Что такое временной ряд и работа с ним
- Главная ловушка при анализе временных рядов
- Основные задачи анализа временных рядов
- Компоненты временного ряда: тренд, сезонность, цикл, всплеск
- С чего начинается: смотрим "на глазок"
- Подавление "шумов":HPF(Hodrick-Prescott Filter) отделение тренда
- Анализ сезонности (на ряду с другими компонентами)
- (s)ARIMA(x): обучение на временном ряде и его прогнозирование
- Итоги временных прогнозов
- Используем SQL-скрипты в JupiterLabs
- Использование Python в Excel 365
- Не таблицами едиными: анализ текста, изображений, аудио, видео..
- Разработка аналитических приложений
- ИИ-помощники при работе с Python
- Обобщение курса
- Напутствие
- Бонус-лекция
Цена 2990 руб.
Скрытая ссылка