技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
FFQ:

Friend-or-Foe Q-Learning

适用场景:

多智能体一般和博弈

算法类型:

开源实现

算法简介:

        Friend-or-Foe Q-Learning(FFQ)算法也是从Minimax Q-Learning算法拓展而来。为了能够处理一般和博弈,FFQ算法对任意一个智能体i,将其他所有智能体分为两组,一组为i的朋友(friend)帮助i一起最大化其奖励,另一组为i的敌人(foe)对抗i并降低i的奖励。因此每个智能体都被划入两个对抗的阵营之一。对一般和博弈而言,FFQ没有收敛到均衡策略的理论保障,但在几种特殊博弈中,FFQ可以学习到均衡策略,如:二人零和随机博弈(foe-Q)、具有唯一价值均衡的协同博弈(friend-Q),等。 FFQ算法没有team leader,每个智能体选择自己动作学习自己的策略获得自己的奖励值,但是为了更新 Q 值,每个智能体需要在每一步观测其他所有friend与foe的执行动作。FFQ与Minimax Q-Learning算法一样都需要利用线性规划,因此算法整体学习速度会变慢。                    

参考文献:

[1] Littman, Michael L. "Friend-or-foe Q-learning in general-sum games." ICML. Vol. 1. 2001.

问题反馈
请将您的宝贵意见反馈给我们