技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
EVA:

Hansen, Steven, et al. "Fast deep reinforcement learning using online adjustments from the past." Advances in Neural Information Processing Systems. 2018.

适用场景:

不完美信息博弈环境。

算法类型:

开源实现

算法简介:

       临时价值评估(EVA)是一种允许深度强化学习代理迅速适应其重放缓冲区中的体验的方法。 EVA将神经网络预测的值与通过对当前状态附近的重放缓冲区中的经验元组进行规划而找到的值函数的估计值进行平移。 EVA结合了将突发性的类似于记忆的结构结合到增强型学习代理中的许多最新想法:基于插槽的存储,基于内容的检索和基于记忆的计划。 EVA在演示任务和Atari游戏中表现出色。

参考文献:

[1] Hansen, Steven, et al. "Fast deep reinforcement learning using online adjustments from the past." Advances in Neural Information Processing Systems. 2018.

算法模块:

EVA.zip

问题反馈
请将您的宝贵意见反馈给我们