Усовершенствованный ИИ: глубокое обучение с подкреплением на Python (Часть 2 из 3)

Bot · 24 Янв 2020

В данном курсе мы будем работать с платформой OpenAI Gym, которой мы будем активно пользоваться в этом курсе. Она позволяет любому человеку из любой точки мира проводить обучение своих агентов с подкреплением в стандартной окружающей среде.

Автор: Lazy Programmer Inc.
Формат: Видео
Продолжительность: ~ 9 часов
Перевод: Красный Кут
Тип перевода: Транскрибация с русским переводом
Всего: 73 видео лекции
Продажник

Скрытый контент.

Часть 1
Часть 2

ЧЕМУ ВЫ НАУЧИТЕСЬ

Создавать различных агентов глубокого обучения (в том числе DQN и A3C);
Применять различные усовершенствованные алгоритмы обучения с подкреплением в любых задачах;
Q-обучение с применением глубоких нейронных сетей;
Методы градиента стратегий с применением нейронных сетей;
Обучение с подкреплением с применением RBF-сетей;
Использование свёрточных нейронных сетей с применением глубокого Q-обучения.

Спойлер: ОПИСАНИЕ КУРСА
Этот курс полностью посвящён применению глубокого обучения и нейронных сетей в обучении с подкреплением.
Если вы изучали мой первый курс по обучению с подкреплением, то знаете, что обучение с подкреплением – это передний край использования ИИ. В частности, сочетание глубокого обучения и обучения с подкреплением привело к тому, что AlphaGo победил чемпиона в интеллектуальной игре го, к созданию самоуправляемых автомобилей и к машинам, способным играть в видеоигры на сверхсложном уровне.

Обучение с подкреплением возникло примерно в 70-х годах, но до нынешних дней все эти достижения были невозможны.

Мир меняется очень быстрыми темпами. Штат Калифорния меняет законодательство, чтобы компании, производящие самодвижущиеся автомобили, могли проверять свои машины без контроля человека за рулём.

Как мы видели, обучение с подкреплением – это вид машинного обучения, совершенно отличный от обучения с учителем и без учителя. Алгоритмы машинного обучения с учителем и без него предназначены для анализа и прогнозирования данных, тогда как обучение с подкреплением посвящено обучению агента взаимодействию с окружающей средой и максимизации своего вознаграждения.

В отличие от алгоритмов обучения с учителем и без, обучение агентов с подкреплением происходит с помощью стимула – они хотят достичь цели. Это имеет настолько захватывающие перспективы, что задним числом машинное обучение с учителем и без и обработка данных могут показаться скучным. Зачем обучать нейронную сеть для изучения данных в наборе, если можно обучить нейронную сеть для взаимодействия с реальным миром?

И хотя глубокое обучение с подкреплением и ИИ имеют большой потенциал, они же несут большие риски. Билл Гейтс и Илон Маск сделали публичные заявления о некоторых рисках, которые представляет ИИ для экономической стабильности и даже самого нашего существования.

Как вы знаете из моего первого курса по обучению с подкреплением, один из главных принципов обучения агентов с подкреплением является существование непредвиденных последствий обучения ИИ. ИИ думает не так, как люди, а потому предлагает новые и неочевидные решения для достижения своих целей, зачастую удивляя лучших специалистов-людей, экспертов в своей области.

OpenAI – это некоммерческая организация, основанная Илоном Маском, Сэмом Альтманом (компания Y Combinator) и другими с целью удостовериться, что развитие ИИ идёт в полезном, а не вредном, русле. Частью мотивации стоящих за OpenAI людей является экзистенциальный риск, который ИИ представляет для людей. Они полагают, что открытое сотрудничество – одно из ключевых условий минимизации этого риска.

Одной из замечательных особенностей OpenAI является наличие платформы OpenAI Gym, которой мы будем активно пользоваться в этом курсе. Она позволяет любому человеку из любой точки мира проводить обучение своих агентов с подкреплением в стандартной окружающей среде. В этом курсе мы будем опираться на достижения из прошлого курса, работая с более сложным окружением, в частности, тем, что предоставляет OpenAI Gym:

– шест на тележке;

– машина на склоне;

– игры Atari.

Для обучения эффективных агентов нам понадобятся новые методы. Мы расширим наши знания в области обучения временных различий, рассмотрев TD-лямбда алгоритм, а также изучим специальный тип нейронной сети, именуемый RBF-сетью. Кроме того, мы рассмотрим метод градиента стратегии, а в конце курса – изучим глубокое Q-обучение (DQN) и А3С (асинхронная усовершенствованная модель «субъект-критик»).

Спасибо за внимание и до встречи на занятиях!

Спойлер: НЕОБХОДИМЫЕ ПРЕДПОСЫЛКИ/ЗНАНИЯ, КОТОРЫМИ ВЫ ДОЛЖНЫ ОБЛАДАТЬ:
– дифференциальное счисление;
– теория вероятностей;

– объектно-ориентированное программирование;

– навыки написания кода на Python: условный оператор, операторы цикла, списки, словари, наборы;

– навыки написания кода в Numpy: матричные и векторные операции;

– линейная регрессия;

– градиентный спуск;

– умение построить сеть прямого распространения, свёрточную и рекуррентную нейронные сети в Theano и TensorFlow;

– марковские процессы принятия решений;

– знание, как использовать динамическое программирование, метод Монте-Карло и обучение с временными различиями для решения задач марковских процессов принятия решений.

Материалы курса

Поиск

Поиск

Усовершенствованный ИИ: глубокое обучение с подкреплением на Python (Часть 2 из 3)

Bot

Администратор