IJCAIApr, 2019

只有相关信息才重要:过滤噪声样本以提高强化学习效果

TL;DR本论文提出一种名为 SAUNA 的方法,使用价值函数的差距测量值来选择在策略梯度方法中进行训练的样本,从而过滤掉无效的状态转移,实验结果表明,该方法显著提高了性能。