技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
Double DQN:

Double Deep Q-Networks

适用场景:

人与环境对抗/人物博弈。

算法类型:

开源实现

算法简介:

     Double DQN是DQN(Deep Q-Network)的一种改进,旨在解决DQN训练过程中存在的过估计(Overestimating)问题。在训练过程中,与DQN直接选取目标网络(Target Q Network)中下一个State各个Action对应的Q值最大的那一个Q值不同,Double DQN的核心在于,它首先使用预测网络(Predict Q Network)计算下一个State的对应各个Action的Q值,然后选取最大的那个Q值对应Action的索引,再使用目标网络计算该状态的对应各个状态的Q值,然后选取预测网络中给定Action索引对应的Q值,但是它可能不是最大的那个,从而一定程度上避免了过度估计,提高了训练DQN的稳定性和速度。



参考文献:

[1] Van Hasselt, Hado, Arthur Guez, and David Silver. "Deep reinforcement learning with double q-learning." Proceedings of the AAAI conference on artificial intelligence. Vol. 30. No. 1. 2016.

算法模块:

Double-DQN.zip

问题反馈
请将您的宝贵意见反馈给我们