算法详情-人机对抗智能

适用场景：

人与环境对抗/人物博弈。

算法类型：

开源实现

算法简介：

PPO是一类用于强化学习的策略梯度方法，该方法在通过与环境交互来采样数据以及使用随机梯度上升优化“替代”目标函数之间交替进行。 PPO提出了一种新颖的目标函数，该函数可实现多个批次的小批量更新。PPO具有TRPO的一些优点，但是它们实施起来更简单，更通用并且具有更好的样本复杂度。在一系列基准任务（包括模拟的机器人运动和Atari游戏）上测试了PPO，证明PPO的性能优于其他On-Policy策略梯度方法，并且总体上在样本复杂度，简单性和有效时间之间取得了良好的平衡。

开源实现：

https://github.com/openai/baselines

参考文献：

[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).

算法模块：

PPO.zip