社区论坛

Community Forum

技术讲堂
播放:571 评论:1 发表于:2022-03-25 08:53:48 B站链接:https://www.bilibili.com/video/BV1QL411w7cM?spm_id_from=333.999.0.0
摘要:

模仿学习为强化学习与自博弈提供策略初始化,将介绍基本的模仿学习策略以及如何与强化学习友好适配。

推荐列表:
  • 田胤

    老师们好!

           我是自动化所的一名准研究生,最近在做兵棋模仿学习作为强化学习预训练模型的研究。听完本讲,感觉对模仿学习的技术理解更深了,也激发了继续训练的动力。

           但是我对训练过程中的一些细节还是有点不明白,不知道老师能否在此处,或者通过邮件(我的邮箱:1311687770@qq.com)解答一下我的疑问呢?主要是以下几个问题。

           1. 在处理样本不平衡的问题上,视频的意思是要将少量的动作所对应的样本,增广到跟最多的动作的样本一样多吗?

           2. 在进行模仿学习训练时,batch size 、epoch 、trace_length 的选取有什么技巧和经验吗?

           3. 要对34v34的1000局兵棋轨迹进行模仿学习,训练所用GPU核数以及大概有多久才能达到一定的准确率呢?

           非常感谢老师!

    2022-03-26 11:56:06
  • 立即登录游客您好,可以登录后发布评论哦!
0
回复帖子 返回顶部

请选择对留言操作
删除留言(管理员或楼主)
问题反馈
请将您的宝贵意见反馈给我们