技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
Deep CFR:

Deep CFR

适用场景:

非完美信息博弈

算法类型:

开源实现

算法简介:

Counterfactual Regret Minimization (CFR) 是解决大型不完美信息博弈的领先框架。它通过迭代遍历博弈树收敛到均衡。为了处理超大型游戏,通常在运行 CFR 之前应用抽象。抽象的博弈用表格 CFR 求解,其解映射回完整的博弈。这个过程可能有问题,因为抽象的方面通常是手动的和特定于领域的,抽象算法可能会错过游戏的重要战略细微差别,并且存在一个鸡与蛋的问题,因为确定一个好的抽象需要了解游戏的平衡。 Deep Counterfactual Regret Minimization是一种 CFR 形式,通过使用深度神经网络来近似整个游戏中的 CFR 行为,从而消除了对抽象的需求。Deep CFR 是有原则的,并在大型扑克游戏中取得了强劲的表现。这是第一个在大型游戏中取得成功的 CFR 非表格变体。

参考文献:

[1] Brown, Noam, et al. "Deep counterfactual regret minimization." International conference on machine learning. PMLR, 2019.

算法模块:

deep_cfr.zip

问题反馈
请将您的宝贵意见反馈给我们