Proximal Policy Optimization
人与环境对抗/人物博弈。
开源实现
PPO是一类用于强化学习的策略梯度方法,该方法在通过与环境交互来采样数据以及使用随机梯度上升优化“替代”目标函数之间交替进行。 PPO提出了一种新颖的目标函数,该函数可实现多个批次的小批量更新。PPO具有TRPO的一些优点,但是它们实施起来更简单,更通用并且具有更好的样本复杂度。 在一系列基准任务(包括模拟的机器人运动和Atari游戏)上测试了PPO,证明PPO的性能优于其他On-Policy策略梯度方法,并且总体上在样本复杂度,简单性和有效时间之间取得了良好的平衡。
[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).