模仿学习为强化学习与自博弈提供策略初始化,将介绍基本的模仿学习策略以及如何与强化学习友好适配。
模仿学习为强化学习与自博弈提供策略初始化,将介绍基本的模仿学习策略以及如何与强化学习友好适配。
老师们好!
我是自动化所的一名准研究生,最近在做兵棋模仿学习作为强化学习预训练模型的研究。听完本讲,感觉对模仿学习的技术理解更深了,也激发了继续训练的动力。
但是我对训练过程中的一些细节还是有点不明白,不知道老师能否在此处,或者通过邮件(我的邮箱:1311687770@qq.com)解答一下我的疑问呢?主要是以下几个问题。
1. 在处理样本不平衡的问题上,视频的意思是要将少量的动作所对应的样本,增广到跟最多的动作的样本一样多吗?
2. 在进行模仿学习训练时,batch size 、epoch 、trace_length 的选取有什么技巧和经验吗?
3. 要对34v34的1000局兵棋轨迹进行模仿学习,训练所用GPU核数以及大概有多久才能达到一定的准确率呢?
非常感谢老师!