反事实后悔最小化算法(Counterfactual Regret Minimization)
多人博弈不完美信息场景。
开源实现
反事实后悔最小化(CFR)是解决大型不完全信息博弈的领先框架。通过迭代遍历博弈树,它收敛到一个均衡点。为了处理非常大的游戏,通常在运行CFR之前应用抽象。抽象游戏使用CFR求解,再把其解决方案映射回完整游戏。这个过程可能会出现问题,因为抽象的方面通常是手动的和特定于领域的,抽象算法可能会错过游戏策略上的细微却重要的差别,并且由于确定良好的抽象需要了解游戏的均衡性,因此存在“鸡与蛋”问题。深度CFR是一种CFR变体,通过使用深度神经网络近似来消除抽象的需要。深度CFR在大型扑克游戏中表现出色。这是大型游戏中第一个成功的CFR非表格变体。
CFR是一种自玩算法:它通过反复对抗自己来学习玩游戏。 该程序从统一随机策略开始,它将以相等的概率在每个决策点执行每个动作。 然后,它模拟自己玩游戏。 每场比赛结束后,它都会重新审视自己的决定,并找到改善其策略的方法。 它对数十亿游戏重复此过程,每次都改进其策略。 随着游戏的进行,它越来越接近游戏的最佳策略:一种最有效的策略就是与对手对抗。
随着时间的推移,改进的方式是对每个决策点上每个动作的后悔总和,这意味着后悔意味着:如果我一直只玩这个动作,那么到目前为止,我会在所有游戏中做得更好在做出这个决定时,除了选择我的策略说我应该使用的行动以外,还要选择其他任何混合方式? 积极的遗憾意味着,如果我们更频繁地采取这种行动,我们会做得更好。 负遗憾意味着我们根本不采取任何行动,将会做得更好。 在该程序与自己对战的每个游戏之后,它都会为其刚做出的所有决策计算并添加新的后悔值。 然后,它会重新计算其策略,以便采取概率与其积极后悔成正比的行动。 如果过去采取的措施是好的,那么将来它将更频繁地选择它。
[1] Brown, Noam, et al. "Deep counterfactual regret minimization." International conference on machine learning. PMLR, 2019.