兵棋AI模仿学习训练方法与思考-论坛社区-人机对抗智能

中国科学院自动化研究所丨智能系统与工程研究中心

立即注册会员登录问题反馈

社区论坛

Community Forum

当前位置 > 首页 > 技术讲堂 > 帖子详情

兵棋AI模仿学习训练方法与思考

播放：1048 评论：1 发表于：2022-03-25 08:53:48 B站链接：https://www.bilibili.com/video/BV1QL411w7cM?spm_id_from=333.999.0.0

摘要：

模仿学习为强化学习与自博弈提供策略初始化，将介绍基本的模仿学习策略以及如何与强化学习友好适配。

推荐列表：

田胤

老师们好！
我是自动化所的一名准研究生，最近在做兵棋模仿学习作为强化学习预训练模型的研究。听完本讲，感觉对模仿学习的技术理解更深了，也激发了继续训练的动力。
但是我对训练过程中的一些细节还是有点不明白，不知道老师能否在此处，或者通过邮件（我的邮箱：1311687770@qq.com）解答一下我的疑问呢？主要是以下几个问题。
1. 在处理样本不平衡的问题上，视频的意思是要将少量的动作所对应的样本，增广到跟最多的动作的样本一样多吗？
2. 在进行模仿学习训练时，batch size 、epoch 、trace_length 的选取有什么技巧和经验吗？
3. 要对34v34的1000局兵棋轨迹进行模仿学习，训练所用GPU核数以及大概有多久才能达到一定的准确率呢？
非常感谢老师！

2022-03-26 11:56:06
回复

立即登录游客您好，可以登录后发布评论哦！

0

回复帖子返回顶部

请选择对留言操作

删除留言（管理员或楼主）

问题反馈

请将您的宝贵意见反馈给我们