强化学习中环境模型利用新机制
基于模型的强化学习方法通常先学习一个动力学模型(Dynamics Model)来模拟环境,再使用该模型来生成虚拟数据用于训练策略或在线规划,因而相较于无模型的强化学习方法有着更高的采样效率。然而,基于模型的方法往往受限于动力学模型的预测精度。先前的研究工作通常考虑人工地调整动力学模型的使用范畴来抑制模型误差对训练过程的影响,但这类固定的方案无法在训练过程中自适应地进行调整。
我们的工作考虑,根据每个生成样本对训练过程的影响来调整权重,从而,在抑制模型误差对训练过程的负影响的同时,最大化地利用生成样本。我们构建以下流程来调整权重:针对每个生成样本,首先,使用它来更新价值和策略网络;然后,在真实数据上计算神经网络更新前后损失值的变化;最后,根据损失值的变化调整该样本的权重。为了高效地实现这一权重调节机制,我们构建了一个权重预测网络,并按照上述流程对该网络进行训练:使用权重预测网络对一批生成样本进行权重预测,使用加权后的样本更新价值和策略网络,以更新前后损失值的变化作为优化目标,按照链式法则计算梯度并更新权重预测网络。
整体框架。权重函数的训练过程(左),权重函数的网络结构(右)。
Wenzhen Huang, Qiyue Yin, Junge Zhang, KAIQI HUANG :Learning to Reweight Imaginary Transitions for Model-‐Based Reinforcement Learning. The Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI) 2021
黄文振,尹奇跃,张俊格,黄凯奇
中国科学院自动化研究所,智能系统与工程研究中心