Regret Policy Gradient
非完全信息博弈、多智能体博弈
开源实现
传统的CFR是基于模型(Model-based)的算法,其每轮都需要进行全宽搜索,需要对环境拥有一个完美建模。这些特点约束了CFR的应用领域扩展。结合CFR算法和强化学习能够为CFR算法带来新的优势。 RPG和RMPG是在策略梯度的基础上,根据遗憾最小化算法的动态,启发式地提出了两种更新策略的方式,建立了强化学习的AC框架与CFR算法的联系。RPG相较传统的CFR算法具有不基于模型(model-free)、最终策略收敛性能良好、不需要大量存储空间等优点。实验表明,RPG算法在扑克等非完全信息博弈下能够稳定收敛于纳什均衡,达到甚至优于作为基线的同为model-free的算法 NFSP的性能。
Srinivasan S, Lanctot M, Zambaldi V, et al. Actor-critic policy optimization in partially observable multiagent environments
[J]. arXiv preprint arXiv:1810.09026, 2018.