Deep Q-Network
人与环境对抗 / 人物博弈。
开源实现
DQN是第一个可以使用强化学习直接从高维传感器输入中成功学习控制策略的深度学习模型。 该模型是一个卷积神经网络,它经过Q学习的变体训练,其输入为原始像素,其输出为估计未来回报的价值函数。 DQN应用于Arcade学习环境中的七个Atari 2600游戏,无需调整体系结构或学习算法。 它在六个游戏中的表现优于所有以前的方法,在三个游戏中都超过了人类专家。
[1] Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv preprint arXiv:1312.5602 (2013).