Feb, 2023

深度策略优化中的一种简单而有效的方差减少技术:样本丢弃

TL;DR本文通过实验表明,利用重要性抽样进行策略优化的代价是很高的方差估计,提出了一种名为 “样本丢弃” 的技术,以限制重要性抽样带来的估计方差,并在一些代表性的策略优化算法上应用,如 TRPO、PPO 和 ESPO,实验证明 “样本丢弃” 可以提高这些深度强化学习算法的性能。