Продвинутый курс по обучению с подкреплением - одной из самых перспективных областей AI. Вы освоите методы, которые используются в AlphaGo, автономных системах и робототехнике. От базовых концепций до современных алгоритмов.
Что вы изучите:
Основы Markov Decision Process (MDP)
Q-Learning и SARSA алгоритмы
Deep Q-Networks (DQN) и варианты
Policy Gradient методы (REINFORCE, A2C, A3C)
Proximal Policy Optimization (PPO)
Actor-Critic архитектуры
Multi-Agent Reinforcement Learning
Характеристики курса:
Продолжительность: 12 недель
Формат: видеолекции + практические проекты
Уровень: продвинутый
Работа с OpenAI Gym, Stable Baselines
Сертификат по окончании
Мы используем cookies
Этот сайт использует файлы cookie для улучшения пользовательского опыта, анализа трафика и персонализации контента. Продолжая использовать наш сайт, вы соглашаетесь с использованием cookies. Подробнее