技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
RPG:

Regret Policy Gradient

适用场景:

非完全信息博弈、多智能体博弈

算法类型:

开源实现

算法简介:


传统的CFR是基于模型(Model-based)的算法,其每轮都需要进行全宽搜索,需要对环境拥有一个完美建模。这些特点约束了CFR的应用领域扩展。结合CFR算法和强化学习能够为CFR算法带来新的优势。 RPG和RMPG是在策略梯度的基础上,根据遗憾最小化算法的动态,启发式地提出了两种更新策略的方式,建立了强化学习的AC框架与CFR算法的联系。RPG相较传统的CFR算法具有不基于模型(model-free)、最终策略收敛性能良好、不需要大量存储空间等优点。实验表明,RPG算法在扑克等非完全信息博弈下能够稳定收敛于纳什均衡,达到甚至优于作为基线的同为model-free的算法 NFSP的性能。

参考文献:

Srinivasan S, Lanctot M, Zambaldi V, et al. Actor-critic policy optimization in partially observable multiagent environments
[J]. arXiv preprint arXiv:1810.09026, 2018.

算法模块:

code.rar

问题反馈
请将您的宝贵意见反馈给我们