Trust Region Policy Optimization
人物博弈、两人博弈
开源实现
TRPO描述了一种用于优化策略并保证单调改进的迭代过程。 通过对理论上合理的过程进行一些近似,我们开发了一种实用的算法,称为信任区域策略优化(TRPO)。 该算法类似于自然策略梯度方法,对于优化大型非线性策略(例如神经网络)有效。 我们的实验证明了它在各种任务上的强大性能:学习模拟的机器人游泳,跳跃和步行步态; 并使用屏幕图像作为输入来玩Atari游戏。 尽管TRPO的近似值偏离了理论,但TRPO倾向于单调改进,而对超参数的调整很少。
[1] Schulman, John, et al. "Trust region policy optimization." International conference on machine learning. PMLR, 2015.