算法详情-人机对抗智能

适用场景：

人物博弈、两人博弈

算法类型：

开源实现

算法简介：

TRPO描述了一种用于优化策略并保证单调改进的迭代过程。通过对理论上合理的过程进行一些近似，我们开发了一种实用的算法，称为信任区域策略优化（TRPO）。该算法类似于自然策略梯度方法，对于优化大型非线性策略（例如神经网络）有效。我们的实验证明了它在各种任务上的强大性能：学习模拟的机器人游泳，跳跃和步行步态；并使用屏幕图像作为输入来玩Atari游戏。尽管TRPO的近似值偏离了理论，但TRPO倾向于单调改进，而对超参数的调整很少。

开源实现：

https://github.com/pat-coady/trpo

参考文献：

[1] Schulman, John, et al. "Trust region policy optimization." International conference on machine learning. PMLR, 2015.

算法模块：

trpo-master.zip