BriefGPT.xyz
Ask
alpha
关键词
sample reuse
搜索结果 - 1
深度策略优化中的一种简单而有效的方差减少技术:样本丢弃
本文通过实验表明,利用重要性抽样进行策略优化的代价是很高的方差估计,提出了一种名为 “样本丢弃” 的技术,以限制重要性抽样带来的估计方差,并在一些代表性的策略优化算法上应用,如 TRPO、PPO 和 ESPO,实验证明 “样本丢弃” 可以提
→
PDF
a year ago
Prev
Next