技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
Hindsight:

Hindsight

适用场景:

强化学习

算法类型:

开源实现

算法简介:

       稀疏奖励问题是指agent探索的过程中难以获得正奖励,导致学习缓慢甚至无法进行学习的问题,并且广泛存在于现实中,比如围棋,人们很难去设定中间每步的奖励,并且状态空间巨大,使用全局奖励会有奖励稀疏且滞后的问题。如何利用好已有的数据和如何使用外部数据和信息在解决稀疏奖励的时候会被更多的思考。 

Hindsight算法是一种基于经验回访机制解决稀疏奖励问题的算法,经验回放机制适用于离策略的学习算法。Hindsight算法从如何利用失败的探索数据入手解决稀疏奖励问题。该算法的基本思想是增加经验池,记录附加目标的状态动作数据,训练时重新计算新的奖励值生成新的minibatch,提高采样效率。Hindsight算法附加目标的奖励和价值函数以及目标的经验池,可以结合任意的off-policy算法,除了多目标的任务,对于单目标任务也适用。                    

参考文献:

[1]Andrychowicz, Marcin, et al. "Hindsight experience replay." Advances in neural information processing systems. 2017.

问题反馈
请将您的宝贵意见反馈给我们