DRON
多人博弈-对手建模
开源实现
与完备信息博弈不同,在非完备信息博弈中参与者只能观察到部分博弈信息,与此同时解决非完备信息博弈还需要处理随机性、风险管理、对手建模、欺诈、信息不可靠等问题。非完备信息博弈的决策过程与现实社会的决策过程更加相似,研究非完备信息博弈问题对于解决现实博弈问题意义重大。对手建模是非完备信息博弈中最难解决的问题之一,也是一个智能的非完备信息博弈程序不可或缺的一部分。对手建模的作用是通过可观察到的玩家行为对博弈中不可知的信息进行预测,将对手建模对未知信息的预测与非完备信息博弈树搜索等技术相结合可以有效地对博弈中的各种行为进行评价,从而在博弈过程中做出对自己最有利的决策。
Deep Reinforcement Opponent Network(DRON)是较早的使用深度学习进行智能体建模的研究,之前的大部分工作集中于开发特定应用的概率模型或参数化策略。基于神经的模型,可以共同学习策略和对手的行为。该算法的基本的想法是使用两个网络,一个估计Q值,另一个学习对手的策略的表征。使用了几个专家网络一起来预测Q值,实际的考虑是专家网络可以捕捉对手的策略。该算法在模拟的足球游戏和流行的知识问答游戏上测试显示出了优于DQN及其变体的性能。
[1]He, He, et al. "Opponent modeling in deep reinforcement learning." International conference on machine learning. 2016.