Dueling DQN
适用于基于视觉感知的DRL任务中.
开源实现
不同的状态动作对的值函数是不同的,但是在某些状态下,值函数的大小与动作无关。根据以上思想,Wang等人提出了一种竞争网络结构(dueling network)作为DQN的网络模型。Dueling DQN提出了一种新的神经网络架构,用于无模型的强化学习。 Dueling DQN代表两个独立的估算器:一个用于状态值函数,另一个用于状态相关的行动优势函数。 这种因式分解的主要好处是在不对底层强化学习算法进行任何更改的情况下,将学习概括为跨动作。 结果表明,这种架构在存在许多类似价值的行动的情况下会导致更好的策略评估。
[1] Wang, Ziyu, et al. "Dueling network architectures for deep reinforcement learning." International conference on machine learning. PMLR, 2016.