Double Deep Q-Networks
人与环境对抗/人物博弈。
开源实现
Double DQN是DQN(Deep Q-Network)的一种改进,旨在解决DQN训练过程中存在的过估计(Overestimating)问题。在训练过程中,与DQN直接选取目标网络(Target Q Network)中下一个State各个Action对应的Q值最大的那一个Q值不同,Double DQN的核心在于,它首先使用预测网络(Predict Q Network)计算下一个State的对应各个Action的Q值,然后选取最大的那个Q值对应Action的索引,再使用目标网络计算该状态的对应各个状态的Q值,然后选取预测网络中给定Action索引对应的Q值,但是它可能不是最大的那个,从而一定程度上避免了过度估计,提高了训练DQN的稳定性和速度。
[1] Van Hasselt, Hado, Arthur Guez, and David Silver. "Deep reinforcement learning with double q-learning." Proceedings of the AAAI conference on artificial intelligence. Vol. 30. No. 1. 2016.