技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
RND:

random network distillation

适用场景:

强化学习

算法类型:

开源实现

算法简介:

       强化学习算法在引入深度神经网络后,对大量样本的需求更加明显。如果智能体在与环境的交互过程中没有获得奖励,那么该样本在基于值函数和基于策略梯度的损失中的贡献会很小。直接使用稀疏奖励样本进行学习有时不仅无法带来策略提升,还会带来负面影响,导致神经网络训练的发散。解决稀疏奖励问题能够使强化学习算法的性能获得普遍提升。目前,针对解决稀疏奖励问题的研究主要包括:奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务。

 RND的全称是random network distillation,是OpenAI提出的一种奖励算法。相较于基于动力学模型预测误差的(Curiosity、ICM);基于各种信息增益的(Empowerment、VIME)的内在奖励设计方法,RND方法又是一种新的设计模式。RND将奖励分成了intrinsic reward和extrinsic reward两部分,其中extrinsic reward相当于是原始奖励,而intrinsic reward的计算则是通过设计了两个网络。该方法易于实现,适用于高维观测,可与多种策略优化算法一起使用。                    

参考文献:

[1] Burda, Yuri, et al. "Exploration by random network distillation." arXiv preprint arXiv:1810.12894 (2018).

问题反馈
请将您的宝贵意见反馈给我们