技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
TRPO:

Trust Region Policy Optimization

适用场景:

人物博弈、两人博弈

算法类型:

开源实现

算法简介:

TRPO描述了一种用于优化策略并保证单调改进的迭代过程。 通过对理论上合理的过程进行一些近似,我们开发了一种实用的算法,称为信任区域策略优化(TRPO)。 该算法类似于自然策略梯度方法,对于优化大型非线性策略(例如神经网络)有效。 我们的实验证明了它在各种任务上的强大性能:学习模拟的机器人游泳,跳跃和步行步态; 并使用屏幕图像作为输入来玩Atari游戏。 尽管TRPO的近似值偏离了理论,但TRPO倾向于单调改进,而对超参数的调整很少。

参考文献:

[1] Schulman, John, et al. "Trust region policy optimization." International conference on machine learning. PMLR, 2015.

算法模块:

trpo-master.zip

问题反馈
请将您的宝贵意见反馈给我们