Feb, 2023
深度策略优化中的一种简单而有效的方差减少技术:样本丢弃
Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization
Zichuan Lin, Xiapeng Wu, Mingfei Sun, Deheng Ye, Qiang Fu...
TL;DR本文通过实验表明,利用重要性抽样进行策略优化的代价是很高的方差估计,提出了一种名为 “样本丢弃” 的技术,以限制重要性抽样带来的估计方差,并在一些代表性的策略优化算法上应用,如 TRPO、PPO 和 ESPO,实验证明 “样本丢弃” 可以提高这些深度强化学习算法的性能。