Minimax Q-Learning
应用于两个玩家的零和随机博弈中,适用于两人博弈的场景中
开源实现
Minimax Q-Learning算法应用于两个玩家的零和随机博弈中。Minimax Q-Learning中的Minimax指的是使用minimax方法构建线性规划来求解每个特定状态s的阶段博弈的纳什均衡策略。Q指的是借用Q-learning中的TD方法来迭代学习状态值函数或动作-状态值函数。 在强化学习的马尔可夫决策过程(MDP)形式化中,单个适应性智能体与由概率转移函数定义的环境进行交互。从这种观点来看,另一智能体只能是环境的一部分,因此其行为是固定的。马尔可夫博弈的框架允许我们将这种观点扩大到包括具有交互或竞争目标的多个适应性智能体。 Minimax Q-Learning考虑了朝这个方向迈出的一步,恰好两个目标截然相反的智能体共享一个环境。 它描述了一种类似Q-Learning的算法来寻找最优策略并演示其在简单的二人博弈中的应用。
[1] Littman, Michael L. "Markov games as a framework for multi-agent reinforcement learning." Machine learning proceedings 1994. Morgan Kaufmann, 1994. 157-163.