CFR against a best responder
不完美信息博弈环境。
开源实现
扩展型游戏是表示智能体之间互动的强大模型。纳什均衡策略是扩展型游戏的常见解决方案概念,在两人零和游戏中,存在有效的算法来计算此类策略。在大型游戏中,此计算可能需要过多的内存和时间才能处理。在这种情况下,一种标准方法是应用有损状态空间抽象技术来生成可以解决的较小的抽象博弈,同时希望所得的抽象博弈均衡接近于无抽象博弈中的均衡策略。最近的工作表明,这种假设是不可靠的,抽象博弈中的任意Nash均衡也不太可能接近该空间中可以表示的最小次优策略。CFR-BR首次提出了一种算法,该算法可以有效地找到最佳抽象策略:在基本游戏中具有最小可利用性的策略。
[1] Johanson, Michael, et al. "Finding optimal abstract strategies in extensive-form games." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 26. No. 1. 2012.