Deep CFR
非完美信息博弈
开源实现
Counterfactual Regret Minimization (CFR) 是解决大型不完美信息博弈的领先框架。它通过迭代遍历博弈树收敛到均衡。为了处理超大型游戏,通常在运行 CFR 之前应用抽象。抽象的博弈用表格 CFR 求解,其解映射回完整的博弈。这个过程可能有问题,因为抽象的方面通常是手动的和特定于领域的,抽象算法可能会错过游戏的重要战略细微差别,并且存在一个鸡与蛋的问题,因为确定一个好的抽象需要了解游戏的平衡。 Deep Counterfactual Regret Minimization是一种 CFR 形式,通过使用深度神经网络来近似整个游戏中的 CFR 行为,从而消除了对抽象的需求。Deep CFR 是有原则的,并在大型扑克游戏中取得了强劲的表现。这是第一个在大型游戏中取得成功的 CFR 非表格变体。
[1] Brown, Noam, et al. "Deep counterfactual regret minimization." International conference on machine learning. PMLR, 2019.