算法详情-人机对抗智能

适用场景：

强化学习

算法类型：

开源实现

算法简介：

强化学习算法在引入深度神经网络后，对大量样本的需求更加明显。如果智能体在与环境的交互过程中没有获得奖励，那么该样本在基于值函数和基于策略梯度的损失中的贡献会很小。直接使用稀疏奖励样本进行学习有时不仅无法带来策略提升，还会带来负面影响，导致神经网络训练的发散。解决稀疏奖励问题能够使强化学习算法的性能获得普遍提升。目前，针对解决稀疏奖励问题的研究主要包括：奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务。

RND的全称是random network distillation，是OpenAI提出的一种奖励算法。相较于基于动力学模型预测误差的（Curiosity、ICM）；基于各种信息增益的（Empowerment、VIME）的内在奖励设计方法，RND方法又是一种新的设计模式。RND将奖励分成了intrinsic reward和extrinsic reward两部分，其中extrinsic reward相当于是原始奖励，而intrinsic reward的计算则是通过设计了两个网络。该方法易于实现，适用于高维观测，可与多种策略优化算法一起使用。

开源实现：

https://github.com/openai/random-network-distillation

参考文献：

[1] Burda, Yuri, et al. "Exploration by random network distillation." arXiv preprint arXiv:1810.12894 (2018).

算法模块：

random-network-distillation-master.zip