技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
Outcome sampling Monte Carlo CFR:

Outcome sampling MC CFR

适用场景:

不完美信息博弈

算法类型:

开源实现

算法简介:

智能体和不完全信息下的序贯决策通常被建模为一个广泛的博弈。反事实后悔最小化(CFR)是计算大型、零和、不完全信息博弈纳什均衡的一种有效方法。在扑克领域,CFR已经被证明是有效的,特别是当使用涉及机会-结果抽样的特定领域的增强时。蒙特卡罗反事实后悔最小化(MCCFR)展示了MCCFR执行与CFR相同的期望后悔更新。然后,MCCFR介绍了两种抽样方案:结果抽样和外部抽样,证明了两种抽样方案都具有高概率的有界总体后悔。因此,他们可以计算一个近似平衡使用自我发挥。最后,我们证明了原CFR算法在遗憾上的一个新的更紧的界,并将这个新的界与MCCFR的界联系起来。虽然基于样本的算法需要更多的迭代,但它们的每次迭代成本较低,可以在各种博弈中显著加快收敛速度。

开源实现:

参考文献:

[1] Lanctot, Marc et al. “Monte Carlo Sampling for Regret Minimization in Extensive Games.” NIPS (2009)

算法模块:

external_sampling_mccfr.zip

问题反馈
请将您的宝贵意见反馈给我们