Nov, 2019

通过可微分奖励优化数据使用

TL;DR通过训练适应性评分器的机器学习模型,以及使用可学习的函数对训练数据进行评分,在完成整个训练过程之前就能量化数据的影响,提出了一种名为 Differentiable Data Selection (DDS) 的强化学习方法。该方法在机器翻译和图像分类等任务中提供了显著的计算优势和一致的效果提升