德州扑克
零和博弈;不完美信息,两人或多人博弈(≥2人),回合制。
金融市场、股票市场预测、复杂现实场景建模、城市规划、战争指挥决策智能化等。
德州扑克相比棋类游戏更为复杂,这是因为它是非零和博弈——选手必须在无法得知赛局所有信息的情况下,制定自己的策略。这样的“不完美信息”博弈更贴近现实生活中解决问题的场景。例如,在拍卖和金融谈判中,就会出现类似情况。而扑克则成为了测试人工智能是否能应对这种情景的平台。德州扑克人工智能需要摸索出在任何情况下,无论对手如何应对,都能必赢的策略。从博弈论来说,德扑AI通过选取GTO最优策略,以达到纳什均衡。换句话说,德扑AI找到了对手的弱点,但没有暴露自己的弱点,找到了一个新的平衡点。简而言之,德扑AI就是利用CFR算法在尝试不同的策略中累积经验和评估选择,不断于决策点复盘后最小化遗憾值。 能够在这种不完美信息博弈中战胜人类,是人类在探索和解决具有不完美信息问题的一大进步。而这些探索在未来也能更好地用于解决同类具有不完美信息的实际问题,例如用于金融和网络安全中的复杂现实世界问题。