算法详情-人机对抗智能

适用场景：

非完美信息博弈

算法类型：

开源实现

算法简介：

Counterfactual Regret Minimization (CFR) 是解决大型不完美信息博弈的领先框架。它通过迭代遍历博弈树收敛到均衡。为了处理超大型游戏，通常在运行 CFR 之前应用抽象。抽象的博弈用表格 CFR 求解，其解映射回完整的博弈。这个过程可能有问题，因为抽象的方面通常是手动的和特定于领域的，抽象算法可能会错过游戏的重要战略细微差别，并且存在一个鸡与蛋的问题，因为确定一个好的抽象需要了解游戏的平衡。 Deep Counterfactual Regret Minimization是一种 CFR 形式，通过使用深度神经网络来近似整个游戏中的 CFR 行为，从而消除了对抽象的需求。Deep CFR 是有原则的，并在大型扑克游戏中取得了强劲的表现。这是第一个在大型游戏中取得成功的 CFR 非表格变体。

开源实现：

https://github.com/deepmind/open_spiel/tree/master/open_spiel/

参考文献：

[1] Brown, Noam, et al. "Deep counterfactual regret minimization." International conference on machine learning. PMLR, 2019.

算法模块：

deep_cfr.zip