Продвинутый ИИ: глубокое обучение с подкреплением в Python [Udemy] [Lazy Programmer Team]

Admin

Администратор
Команда форума
22 Фев 2018
43,807
17,566
113
Вы когда-нибудь задумывались, как на самом деле работают такие технологии искусственного интеллекта, как OpenAI ChatGPT и GPT-4? В этом курсе вы узнаете об основах этих революционных приложений.
Этот курс посвящен применению глубокого обучения и нейронных сетей в обучении с подкреплением.

Если вы посещали мой первый курс по обучению с подкреплением, то вы знаете, что обучение с подкреплением находится на переднем крае того, что мы можем сделать с помощью ИИ.

В частности, сочетание глубокого обучения с обучением с подкреплением привело к тому, что AlphaGo победил чемпиона мира в стратегической игре Go, привело к созданию самоуправляемых автомобилей и машин, которые могут играть в видеоигры на сверхчеловеческом уровне.
Обучение с подкреплением существует с 70-х годов прошлого века, но до сих пор ничего подобного не было.

Мир меняется очень быстро. Штат Калифорния меняет свои правила, чтобы компании, производящие самоуправляемые автомобили, могли тестировать свои машины без человека в машине для контроля. Мы увидели, что обучение с подкреплением - это совершенно другой вид машинного обучения, чем обучение с подкреплением и обучение без подкрепления.

Алгоритмы контролируемого и неконтролируемого машинного обучения предназначены для анализа и прогнозирования данных, в то время как обучение с подкреплением - это обучение агента взаимодействию с окружающей средой и максимизации его вознаграждения. В отличие от алгоритмов контролируемого и неконтролируемого обучения, у агентов обучения с подкреплением есть стимул - они хотят достичь цели.

Это настолько интересная перспектива, что в ретроспективе контролируемое/неконтролируемое машинное обучение и «наука о данных» могут показаться скучными. Зачем обучать нейронную сеть изучать данные в базе данных, если можно обучить ее взаимодействовать с реальным миром?

Глубокое обучение с подкреплением и искусственный интеллект обладают большим потенциалом, но они также несут в себе огромный риск. Билл Гейтс и Элон Маск сделали публичные заявления о некоторых рисках, которые ИИ представляет для экономической стабильности и даже нашего существования. Как мы узнали на моем первом курсе по обучению с подкреплением, один из главных принципов обучения агентов обучения с подкреплением заключается в том, что при обучении ИИ могут возникнуть непредвиденные последствия.

ИИ думают не так, как люди, поэтому они придумывают новые и неинтуитивные решения для достижения своих целей, зачастую удивляя экспертов в данной области - людей, которые лучше всех разбираются в том, что они делают.

OpenAI - это некоммерческая организация, основанная Элоном Маском, Сэмом Альтманом (Y Combinator) и другими людьми для того, чтобы прогресс ИИ приносил пользу, а не вред.

Частью мотивации OpenAI является экзистенциальный риск, который ИИ представляет для людей. Они считают, что открытое сотрудничество - один из ключей к снижению этого риска.

Одна из главных особенностей OpenAI заключается в том, что у них есть платформа под названием OpenAI Gym, которую мы будем активно использовать в этом курсе.

Она позволяет любому человеку в любой точке мира тренировать агентов обучения с подкреплением в стандартных средах.

В этом курсе мы будем развивать то, что сделали в прошлом курсе, и работать с более сложными средами, в частности, с теми, которые предоставляет OpenAI Gym:

  • CartPole
  • Mountain Car
  • Atari games
Чтобы обучить эффективных обучающихся агентов, нам понадобятся новые методы.
Мы расширим наши знания об обучении с помощью алгоритма TD Lambda, рассмотрим особый тип нейронных сетей, называемый RBF-сетью, рассмотрим градиентный метод политики и закончим курс рассмотрением Deep Q-Learning (DQN) и A3C (Asynchronous Advantage Actor-Critic).
Для просмотра скрытого содержимого необходимо Войти или Зарегистрироваться.
 
Сверху Снизу