算法详情-人机对抗智能

适用场景：

非完全信息博弈、多智能体博弈

算法类型：

开源实现

算法简介：

传统的CFR是基于模型(Model-based)的算法，其每轮都需要进行全宽搜索，需要对环境拥有一个完美建模。这些特点约束了CFR的应用领域扩展。结合CFR算法和强化学习能够为CFR算法带来新的优势。 RPG和RMPG是在策略梯度的基础上，根据遗憾最小化算法的动态，启发式地提出了两种更新策略的方式，建立了强化学习的AC框架与CFR算法的联系。RPG相较传统的CFR算法具有不基于模型(model-free)、最终策略收敛性能良好、不需要大量存储空间等优点。实验表明，RPG算法在扑克等非完全信息博弈下能够稳定收敛于纳什均衡，达到甚至优于作为基线的同为model-free的算法 NFSP的性能。

开源实现：

Http://github.com/deepmind/open_spiel/tree/master/open_spiel/python/algorithms

参考文献：

Srinivasan S, Lanctot M, Zambaldi V, et al. Actor-critic policy optimization in partially observable multiagent environments
[J]. arXiv preprint arXiv:1810.09026, 2018.

算法模块：

code.rar