Prioritized Experience Replay
人物博弈,两人博弈。
开源实现
PER-DQN提出的优先级通过更加频繁的更新去衡量“TD-error”,然而优先级也会带来的多样性损失问题,作者则利用随机优先级采样、偏置和重要性采样来避免该问题。为了处理上述问题,作者提出stochastic prioritization,随机化的采样过程,“信息量”越大,被抽中的概率越大,但即使是“信息量”最大的transition,也不一定会被抽中,仅仅只是被抽中的概率较大。
Prioritized DQN能够成功的主要原因有两个:
1. sum tree这种数据结构带来的采样的O(log n)的高效率
2. Weighted Importance sampling的正确估计
[1] Schaul, Tom, et al. "Prioritized experience replay." arXiv preprint arXiv:1511.05952 (2015).