技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
AC:

Actor-Critic

适用场景:

人物博弈、两人博弈

算法类型:

开源实现

算法简介:

Actor-Critic是策略梯度的时间差异(TD)版本[1]。它有两个网络:参与者和评论家。参与者决定应该采取哪种行动,评论家告知参与者该行动有多好,应该如何调整。参与者的学习基于策略梯度方法。相比之下,评论家通过计算价值函数来评估参与者的行动。

开源实现:

参考文献:

[1] Konda, Vijay R., and John N. Tsitsiklis. "Actor-critic algorithms." Advances in neural information processing systems. 2000.

算法模块:

Actor-Critic.zip

问题反馈
请将您的宝贵意见反馈给我们