Основы работы с большими данными (Data Science) [2022] [Специалист] [Федор Самородов]

Bot

Администратор
Команда форума
23 Янв 2020
208,625
3,150
113
172347.jpg

Основы работы с большими данными (Data Science) [2022]
Специалист
Федор Самородов
Предлагаем Вам погрузиться в Data Science, чтобы познакомиться с Big Data! На нашем курсе Вы соприкоснетесь с самой популярной в IT концепцией.

Цель курса
- ознакомиться с современными подходами к анализу «больших данных». Полученные знания и навыки позволят слушателям повысить эффективность принятия решений за счет грамотного сбора, структурирования и применения современных техник анализа больших объемов данных: Data – Information – Knowledge – Wisdom: от данных - к мудрости в принятии решений!

Компании, которые игнорируют Big Data, отстают от конкурентов и теряют прибыль. Тем временем компании, работающие с большими данными, показывают высокие результаты в клиентском сервисе, операционной эффективности и риск-менеджменте.

Компаний, внедряющих Big Data, становится все больше. Растет спрос на специалистов, которые могут комплексно работать с большими массивами данных: анализировать, обрабатывать и визуализировать их. Аналитик больших данных, решая бизнес-задачи, развивается одновременно в IT и бизнесе.

Наш курс «Основы работы с большими данными: Data Science Orientation» позволит Вам «подружиться» с Big Data (большими данными).

Предлагаемый курс позволит управляющему персоналу, менеджерам, разработчикам, другим сотрудникам, вовлеченным в аналитическую деятельность своей компании, ознакомиться с современными инструментами сбора, подготовки, обработки и анализа больших объемов разнородных данных.

По итогам курса Вы будете уверенно ориентироваться в мире «больших данных», машинного обучения и сможете организовывать команды для работы с «большими данными» и определите направление своего профессионального развития в этой области.

В курсе рассматриваются вопросы:
1. Источники информации: структурированные и неструктурированные;
2. Основные характеристики больших данных и способы их анализа;
3. Элементы классификации данных и машинного обучения;
4. Основы статистического анализа, построение регрессионных зависимостей;
5. Визуализация «больших данных»;
6. Обзор классов задач, решаемых инструментами машинного обучения и ИИ: распознавание образов, звуков, текста, прогностика, анализ соцсетей;
7. Обзор математических инструментов решения: нейронные сети, графы, нечеткие и К-значные логики;
8. Обзор прикладных инструментов: AWS, Azure AI, machine learning c демонстрацией применения;
9. Специальности в области «больших данных» и формирование команд: аналитики данных, «ученые по данным», программисты по «большим данным», менеджеры по «большим данным» (CDO).
10. Методы реорганизации работы компании при применении анализа «больших данных».

Вы научитесь:
1. Определять источники сбора информации и формировать требования к ним;
2. Применять стандартный CRISP-DM процесс для Вашей организации;
3. Подбирать команду для работы с большими данными (Big Data);
4. Выбирать инструментарий для практической работы;
5. Применять специализированные инструменты Excel – «Пакет анализа данных» и «Тренды»;
6. Применять «дерево решений»;
7. Определять подходящие инструменты и методы для решения основных классов задач машинного обучения и взаимодействовать с разработчиками;
8. Использовать методы классификации данных для машинного обучения;
9. Подбирать выборки разработки, тестовую и обучающую для достижения наилучших результатов анализа информации;
10. Организовывать реорганизацию работы компании для применения управления на основе больших данных.

Вы будите знать:
1. Понимать концепцию больших данных (Big Data);
2. Знать типовые задачи, для решения которых применяется машинное обучение: анализ трендов, социальных сетей; распознавание графических, видео- и аудио-образов, текста; прогностика действий (на примере покупок);
3. Владеть базовыми математическими понятиями;
4. Понимать основные методы обработки и анализа данных: регрессия, нейронные сети; графы, К-значные логики;
5. Знать основные современные инструменты анализа данных;
6. Понимать принципы организации и структуру команд по работе с бигдата.

Спойлер: Содержание
Модуль 1 - Область применения больших данных. Типовые задачи
  • Цели курса
  • Определение основных понятий
  • История науки о данных
  • Выгоды от работы с большими данными
  • Типовые задачи: прогноз продаж, производства, спроса. Анализ поведения. Распознавание образов. Экспертные системы.
Модуль 2 - Сбор и подготовка исходных данных. Методика CRISP-DM
  • С чего начать. Межотраслевая стандартная методика работы с данными CRISP-DM
  • Описательное и ассоциативное исследование исходных данных
  • Сегментирование и очистка данных (slice and dice). Примеры инструментов Excel
  • Визуализация данных в Excel. Как использовать сводные таблицы и диаграммы
  • Практическая работа. Сегментировать и очистить тестовый набор данных.
Модуль 3 - Основы математической статистики. ANOVA. Надстройка Excel «Пакет анализа»
  • Описательная статистика
  • Среднее, наиболее вероятное, медиана
  • Дисперсия, стандартное отклонение, стандартная ошибка
  • Виды распределений
  • Пакет анализа данных Excel
  • Обзор других прикладных средств работы с данными (R, Python, Octave, MathLab, специализированные БД).
  • Практическая работа. Определить статистические характеристики выборки данных.
Модуль 4 - Задача прогноза продаж. Понятие машинного обучения. Корреляция. Регрессионный анализ
  • Постановка задачи оценки взаимосвязи между различными факторами и построение прогноза
  • Корреляция. Коэффициент Пирсона
  • Критерий Стьюдента (T-анализ)
  • Основы машинного обучения
  • Регрессионный анализ
  • Критерий Фишера
  • Построение и анализ трендов в Excel
  • Практическая работа. Определить наличие корреляции и регрессионную зависимость между двумя выборками данных. Построить тренд.
Модуль 5 - Задачи классификации и распознавания образов, видео, речи, текста. Понятие нейронных сетей. Примеры применения.
  • Задача сегментации дискретных данных на примере задач распознавания (графика, речь, текст)
  • Нейронные сети как инструмент решения задач классификации
  • Демонстрация на примерах Azure, AWS
  • Задачи классификации данных в социальных сетях и поиска оптимального решения (маршрута)
  • Графы как инструмент решения задач на социальных графах и прогнозирования поведения
  • Дерево решений
  • Разбиение на выборки (обучающую, тестовую, проверочную)
  • Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
  • Практическая работа: провести классификацию набора данных и его разбиение на сегменты.
Модуль 6 - Задача исследования социальных сетей. Задача прогнозирования поведения пользователя. Социальные и направленные графы. Деревья решений. Примеры применения
  • Задача классификации данных в социальных сетях
  • Графы как инструмент решения задач на социальных графах и прогнозирования поведения
  • Разбиение на выборки (обучающую, тестовую, проверочную)
  • Анализ ошибок обучения. Базис и отклонения. Ручная корректировка
Модуль 7 - Продвинутые инструменты: глубокое машинное обучение, искусственный интеллект, нечеткие множества
  • Понятие Deep Machine Learning
  • Многофакторный бизнес анализ на примере нечетких логик
Модуль 8 - Профориентация по специальностям в Data Science. Выводы и рекомендации по построению и организации работы команды
  • Роли специалистов по DS: аналитик данных, ученый по данным, программист, цифровой директор
  • Требования к компетенциям и взаимодействию сотрудников в области аналитики данных
  • Состав и требования к проектной команде для DS
  • Подготовка компании к применению «бигдата»

Продажник