技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
DDPG:

Deep Deterministic Policy Gradient

适用场景:

人与环境对抗/人物博弈。

算法类型:

开源实现

算法简介:

      DDPG将DQN成功的基础思想适应于连续行动领域。它基于可在连续动作空间上运行的确定性策略梯度,提出了一种基于参与者的,无模型的算法。 使用相同的学习算法,网络体系结构和超参数,DDPG算法可以稳健地解决20多个模拟物理任务,包括经典问题,例如卡杆摆动,灵巧操纵,有腿运动和汽车驾驶。 DDPG算法能够找到性能与规划算法相媲美的策略,并且可以完全访问域及其派生的动态。 对于许多任务,该算法可以直接从原始像素输入中学习“端到端”策略。

参考文献:

[1] Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971 (2015).

算法模块:

DDPG.zip

问题反馈
请将您的宝贵意见反馈给我们