算法详情-人机对抗智能

适用场景：

多人一般和博弈.

算法类型：

开源实现

算法简介：

Nash Q-Learning算法是将Minimax Q-Learning算法从零和博弈扩展到多人一般和博弈的算法。Nash Q-Learning算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点，其收敛性条件是：在每一个状态s的阶段博弈中，都能够找到一个全局最优点或者鞍点，只有满足这个条件，Nash Q-Learning算法才能够收敛。与Minimax Q-Learning算法相同，Nash Q-Learning算法求解二次规划的过程也非常耗时，降低了算法的学习速度。 Nash Q-Learning算法使用一般和随机博弈框架将Q-Learning扩展到非合作多智能体环境。学习智能体在联合动作中维持Q函数，并根据假设当前Q值的纳什均衡行为进行更新。在多智能体问题中，Nash Q-Learning性能优于单智能体Q-Learning方法：当至少一个智能体采用Nash Q-learning时，两个智能体的性能都优于使用单智能体Q-learning。

开源实现：

https://github.com/zouchangjie/RL-Nash-Q-learning

参考文献：

[1] Hu, Junling, and Michael P. Wellman. "Nash Q-learning for general-sum stochastic games." Journal of machine learning research 4.Nov (2003): 1039-1069.

算法模块：

RL-Nash-Q-learning-master.zip