技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
Nash Q:

Nash Q-Learning

适用场景:

多人一般和博弈.

算法类型:

开源实现

算法简介:

       Nash Q-Learning算法是将Minimax Q-Learning算法从零和博弈扩展到多人一般和博弈的算法。Nash Q-Learning算法在合作性均衡或对抗性均衡的环境中能够收敛到纳什均衡点,其收敛性条件是:在每一个状态s的阶段博弈中,都能够找到一个全局最优点或者鞍点,只有满足这个条件,Nash Q-Learning算法才能够收敛。与Minimax Q-Learning算法相同,Nash Q-Learning算法求解二次规划的过程也非常耗时,降低了算法的学习速度。 Nash Q-Learning算法使用一般和随机博弈框架将Q-Learning扩展到非合作多智能体环境。学习智能体在联合动作中维持Q函数,并根据假设当前Q值的纳什均衡行为进行更新。在多智能体问题中,Nash Q-Learning性能优于单智能体Q-Learning方法:当至少一个智能体采用Nash Q-learning时,两个智能体的性能都优于使用单智能体Q-learning。                    

参考文献:

[1] Hu, Junling, and Michael P. Wellman. "Nash Q-learning for general-sum stochastic games." Journal of machine learning research 4.Nov (2003): 1039-1069.

问题反馈
请将您的宝贵意见反馈给我们