技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
PPO:

Proximal Policy Optimization

适用场景:

人与环境对抗/人物博弈。

算法类型:

开源实现

算法简介:

       PPO是一类用于强化学习的策略梯度方法,该方法在通过与环境交互来采样数据以及使用随机梯度上升优化“替代”目标函数之间交替进行。 PPO提出了一种新颖的目标函数,该函数可实现多个批次的小批量更新。PPO具有TRPO的一些优点,但是它们实施起来更简单,更通用并且具有更好的样本复杂度。 在一系列基准任务(包括模拟的机器人运动和Atari游戏)上测试了PPO,证明PPO的性能优于其他On-Policy策略梯度方法,并且总体上在样本复杂度,简单性和有效时间之间取得了良好的平衡。                    

参考文献:

[1] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).

算法模块:

PPO.zip

问题反馈
请将您的宝贵意见反馈给我们