Neural Fictitious Self-Play
不完美信息博弈环境。
开源实现
Neural Fictitious Self-Play (NFSP)是一种可扩展的端到端方法,用于在没有先验领域知识的情况下学习近似Nash平衡。 NFSP将虚拟自我博弈(Fictitious Self Play)与深度强化学习相结合。 当应用于Leduc扑克时,NFSP解出了纳什均衡,而常见的强化学习方法则会得到不同的结果。 在现实世界规模的扑克游戏——有限注德州扑克中,NFSP学到了一种基于领域专业知识的策略,该策略可以超越人类领先水平。
[1] Heinrich, Johannes, and David Silver. "Deep reinforcement learning from self-play in imperfect-information games." arXiv preprint arXiv:1603.01121 (2016).