Nash Q-Learning
多人一般和博弈.
开源实现
Nash Q-Learning算法是将Minimax Q-Learning算法从零和博弈扩展到多人一般和博弈的算法。Nash Q-Learning算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点,其收敛性条件是:在每一个状态s的阶段博弈中,都能够找到一个全局最优点或者鞍点,只有满足这个条件,Nash Q-Learning算法才能够收敛。与Minimax Q-Learning算法相同,Nash Q-Learning算法求解二次规划的过程也非常耗时,降低了算法的学习速度。 Nash Q-Learning算法使用一般和随机博弈框架将Q-Learning扩展到非合作多智能体环境。学习智能体在联合动作中维持Q函数,并根据假设当前Q值的纳什均衡行为进行更新。在多智能体问题中,Nash Q-Learning性能优于单智能体Q-Learning方法:当至少一个智能体采用Nash Q-learning时,两个智能体的性能都优于使用单智能体Q-learning。
[1] Hu, Junling, and Michael P. Wellman. "Nash Q-learning for general-sum stochastic games." Journal of machine learning research 4.Nov (2003): 1039-1069.