技术共享

TECHNOLOGY SHARING

提供开源算法 高水平基准AI

训练及复盘数据以及AI开发包等

算法中心 数据中心 AI开发中心 训练中心
PER-DQN:

Prioritized Experience Replay

适用场景:

人物博弈,两人博弈。

算法类型:

开源实现

算法简介:

PER-DQN提出的优先级通过更加频繁的更新去衡量“TD-error”,然而优先级也会带来的多样性损失问题,作者则利用随机优先级采样、偏置和重要性采样来避免该问题。为了处理上述问题,作者提出stochastic prioritization,随机化的采样过程,“信息量”越大,被抽中的概率越大,但即使是“信息量”最大的transition,也不一定会被抽中,仅仅只是被抽中的概率较大。

Prioritized DQN能够成功的主要原因有两个:

1. sum tree这种数据结构带来的采样的O(log n)的高效率
2. Weighted Importance sampling的正确估计

开源实现:

参考文献:

[1] Schaul, Tom, et al. "Prioritized experience replay." arXiv preprint arXiv:1511.05952 (2015).

算法模块:

DQN-PER.zip

问题反馈
请将您的宝贵意见反馈给我们