random network distillation
强化学习
开源实现
强化学习算法在引入深度神经网络后,对大量样本的需求更加明显。如果智能体在与环境的交互过程中没有获得奖励,那么该样本在基于值函数和基于策略梯度的损失中的贡献会很小。直接使用稀疏奖励样本进行学习有时不仅无法带来策略提升,还会带来负面影响,导致神经网络训练的发散。解决稀疏奖励问题能够使强化学习算法的性能获得普遍提升。目前,针对解决稀疏奖励问题的研究主要包括:奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务。
RND的全称是random network distillation,是OpenAI提出的一种奖励算法。相较于基于动力学模型预测误差的(Curiosity、ICM);基于各种信息增益的(Empowerment、VIME)的内在奖励设计方法,RND方法又是一种新的设计模式。RND将奖励分成了intrinsic reward和extrinsic reward两部分,其中extrinsic reward相当于是原始奖励,而intrinsic reward的计算则是通过设计了两个网络。该方法易于实现,适用于高维观测,可与多种策略优化算法一起使用。
[1] Burda, Yuri, et al. "Exploration by random network distillation." arXiv preprint arXiv:1810.12894 (2018).