算法详情-人机对抗智能

适用场景：

人物博弈、两人博弈

算法类型：

开源实现

算法简介：

Actor-Critic是策略梯度的时间差异（TD）版本[1]。它有两个网络：参与者和评论家。参与者决定应该采取哪种行动，评论家告知参与者该行动有多好，应该如何调整。参与者的学习基于策略梯度方法。相比之下，评论家通过计算价值函数来评估参与者的行动。

开源实现：

参考文献：

[1] Konda, Vijay R., and John N. Tsitsiklis. "Actor-critic algorithms." Advances in neural information processing systems. 2000.

算法模块：