技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
NFSP:

Neural Fictitious Self-Play

适用场景:

不完美信息博弈环境。

算法类型:

开源实现

算法简介:

       Neural Fictitious Self-Play (NFSP)是一种可扩展的端到端方法,用于在没有先验领域知识的情况下学习近似Nash平衡。 NFSP将虚拟自我博弈(Fictitious Self Play)与深度强化学习相结合。 当应用于Leduc扑克时,NFSP解出了纳什均衡,而常见的强化学习方法则会得到不同的结果。 在现实世界规模的扑克游戏——有限注德州扑克中,NFSP学到了一种基于领域专业知识的策略,该策略可以超越人类领先水平。                    

参考文献:

[1] Heinrich, Johannes, and David Silver. "Deep reinforcement learning from self-play in imperfect-information games." arXiv preprint arXiv:1603.01121 (2016).

问题反馈
请将您的宝贵意见反馈给我们