算法详情-人机对抗智能

适用场景：

多人博弈不完美信息场景。

算法类型：

开源实现

算法简介：

反事实后悔最小化（CFR）是解决大型不完全信息博弈的领先框架。通过迭代遍历博弈树，它收敛到一个均衡点。为了处理非常大的游戏，通常在运行CFR之前应用抽象。抽象游戏使用CFR求解，再把其解决方案映射回完整游戏。这个过程可能会出现问题，因为抽象的方面通常是手动的和特定于领域的，抽象算法可能会错过游戏策略上的细微却重要的差别，并且由于确定良好的抽象需要了解游戏的均衡性，因此存在“鸡与蛋”问题。深度CFR是一种CFR变体，通过使用深度神经网络近似来消除抽象的需要。深度CFR在大型扑克游戏中表现出色。这是大型游戏中第一个成功的CFR非表格变体。

CFR是一种自玩算法：它通过反复对抗自己来学习玩游戏。该程序从统一随机策略开始，它将以相等的概率在每个决策点执行每个动作。然后，它模拟自己玩游戏。每场比赛结束后，它都会重新审视自己的决定，并找到改善其策略的方法。它对数十亿游戏重复此过程，每次都改进其策略。随着游戏的进行，它越来越接近游戏的最佳策略：一种最有效的策略就是与对手对抗。

随着时间的推移，改进的方式是对每个决策点上每个动作的后悔总和，这意味着后悔意味着：如果我一直只玩这个动作，那么到目前为止，我会在所有游戏中做得更好在做出这个决定时，除了选择我的策略说我应该使用的行动以外，还要选择其他任何混合方式？积极的遗憾意味着，如果我们更频繁地采取这种行动，我们会做得更好。负遗憾意味着我们根本不采取任何行动，将会做得更好。在该程序与自己对战的每个游戏之后，它都会为其刚做出的所有决策计算并添加新的后悔值。然后，它会重新计算其策略，以便采取概率与其积极后悔成正比的行动。如果过去采取的措施是好的，那么将来它将更频繁地选择它。

开源实现：

https://github.com/EricSteinberger/Deep-CFR

参考文献：

[1] Brown, Noam, et al. "Deep counterfactual regret minimization." International conference on machine learning. PMLR, 2019.

算法模块：

Deep-CFR-master.zip