Deep Deterministic Policy Gradient
人与环境对抗/人物博弈。
开源实现
DDPG将DQN成功的基础思想适应于连续行动领域。它基于可在连续动作空间上运行的确定性策略梯度,提出了一种基于参与者的,无模型的算法。 使用相同的学习算法,网络体系结构和超参数,DDPG算法可以稳健地解决20多个模拟物理任务,包括经典问题,例如卡杆摆动,灵巧操纵,有腿运动和汽车驾驶。 DDPG算法能够找到性能与规划算法相媲美的策略,并且可以完全访问域及其派生的动态。 对于许多任务,该算法可以直接从原始像素输入中学习“端到端”策略。
[1] Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971 (2015).