算法详情-人机对抗智能

适用场景：

人物博弈，两人博弈。

算法类型：

开源实现

算法简介：

PER-DQN提出的优先级通过更加频繁的更新去衡量“TD-error”，然而优先级也会带来的多样性损失问题，作者则利用随机优先级采样、偏置和重要性采样来避免该问题。为了处理上述问题，作者提出stochastic prioritization，随机化的采样过程，“信息量”越大，被抽中的概率越大，但即使是“信息量”最大的transition，也不一定会被抽中，仅仅只是被抽中的概率较大。

Prioritized DQN能够成功的主要原因有两个：

1. sum tree这种数据结构带来的采样的O(log n)的高效率
2. Weighted Importance sampling的正确估计

开源实现：

参考文献：

[1] Schaul, Tom, et al. "Prioritized experience replay." arXiv preprint arXiv:1511.05952 (2015).

算法模块：

DQN-PER.zip