이 책은 예제로 가득한 강화 학습과 딥 강화 학습을 시작하는 초보자를 위한 최첨단 알고리즘 가이드입니다.
최근에 ChatGPT 열풍으로 인해서 인공지능이 재조명 받고 있고, 특히 ChatGPT에 사용된 강화학습 기술인 RLHF 등이 좀더 자연스럽게 자연어 처리를 하는 키포인트 임이 조명 받고 있습니다. 최근 몇 년 동안 알고리즘의 품질과 양이 크게 향상되어, 이 책의 두 번째 판은 TensorFlow 2와 OpenAI Gym 툴킷을 사용하여 최첨단 강화 학습(RL) 및 딥 강화학습(Deep RL) 알고리즘을 배우는 예제 풍부한 가이드로 개정되었습니다. 본 도서는 벨만 방정식, 마르코프 의사 결정 과정, 동적 프로그래밍 알고리즘과 같은 RL의 기본 개념 및 기초를 탐구할 뿐만 아니라, Value 기반, Policy 기반 및 Actor-Critic RL 방법의 전체 스펙트럼을 깊이 다룹니다.
이 책의 주요 특징은 다음과 같습니다:
∙ 기본부터 고급 RL 알고리즘까지 넓은 스펙트럼을 수학적 설명과 함께 다룹니다.
∙ 각 줄마다 설명이 있는 예제를 따라 알고리즘을 구현하는 방법을 배웁니다.
∙ 최신 RL 방법론인 DQN, TRPO, PPO, ACKTR, DDPG, TD3, SAC 등을 살펴봅니다.
제1장 Fundamentals of Reinforcement Learning
제2장 A Guide to the Gym Toolkit
제3장 The Bellman Equation and Dynamic Programming
제4장 Monte Carlo Methods
제5장 Understanding Temporal Difference Learning
제6장 Case Study–e MAB Problem
제7장 Deep LearningFoundation
제8장 A Primer on TensorFlow
제9장 Deep Q Networkand Its Variants
제10장 Policy Gradient Method
제11장 Actor-Critic Methods - A2C and A3C
제12장 Learning DDPG, TD3 and SAC
제13장 TRPO, PPO and ACKTR Methods
제14장 Distributional Reinforcement Learning
제15장 Imitation Learning and Inverse RL
제16장 Deep Reinforcement Learning with Stable Baselines
제17장 Reinforcement Learning Frontiers