116 lines (70 loc) · 4.93 KB

Reinforcement Learning Code with PyTorch

Papers

Algorithms

01. Model-Free Reinforcement Learning

Deep Q-Network (DQN)

CartPole(Classic control)

Double DQN (DDQN)

CartPole(Classic control)

Advantage Actor-Critic (A2C)

CartPole(Classic control)

Asynchronous Advantage Actor-Critic (A3C)

CartPole(Classic control)

Deep Deterministic Policy Gradient (DDPG)

Pendulum(Classic control)

Truncated Natural Policy Gradient (TNPG)

Trust Region Policy Optimization (TRPO)

Pendulum(Classic control)

TRPO + Generalized Advantage Estimator (GAE)

Proximal Policy Optimization (PPO)

Pendulum(Classic control)

PPO + Generalized Advantage Estimator (GAE)

Soft Actor-Critic (SAC)

02. Inverse Reinforcement Learning

Apprenticeship Learning via Inverse Reinforcement Learning (APP)

MountainCar(Classic control)

Maximum Entropy Inverse Reinforcement Learning (MaxEnt)

MountainCar(Classic control)

Generative Adversarial Imitation Learning (GAIL)

Hopper(MoJoCo)

Variational Adversarial Imitation Learning (VAIL)

Hopper(MoJoCo)

Learning curve

CartPole

Pendulum

Hopper

Reference