Hansen, Steven, et al. "Fast deep reinforcement learning using online adjustments from the past." Advances in Neural Information Processing Systems. 2018.
不完美信息博弈环境。
开源实现
临时价值评估(EVA)是一种允许深度强化学习代理迅速适应其重放缓冲区中的体验的方法。 EVA将神经网络预测的值与通过对当前状态附近的重放缓冲区中的经验元组进行规划而找到的值函数的估计值进行平移。 EVA结合了将突发性的类似于记忆的结构结合到增强型学习代理中的许多最新想法:基于插槽的存储,基于内容的检索和基于记忆的计划。 EVA在演示任务和Atari游戏中表现出色。
[1] Hansen, Steven, et al. "Fast deep reinforcement learning using online adjustments from the past." Advances in Neural Information Processing Systems. 2018.