Local Generative Actor-Critic(浙江大学)
人物博弈,两人博弈
开源实现
Local GAC算法是一个基于批判执行算法框架的去中心化分布式异策略算法。该算法在一个无中心节点的集群上进行计算,其中每个计算节点只需与其邻居进行局部的信息同步,通信和采样效率高。Local GAC使用了一个生成式函数作为策略函数。与现有算法的策略函数相比,生成式函数具有更强的表达能力,能够大大提高强化学习算法的性能。另外,Local GAC使用两个同构的参数化Q函数来解决双采样问题,利用Double-Q 技术来防止随机初始化的Q函数错误地高估动作的价值,以及通过构造一个基于最大平均差异的近似最大熵正则项来控制策略的探索性和执行性之间的平衡。Local GAC在六个MuJoCo机器人环境中的表现优于现有的基准算法。
[1] Lingwei, Peng, et al. "Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model." arXiv preprint arXiv:2105.03733 (2021).