ICLRJul, 2019

关于强化学习在神经机器翻译中的缺陷

TL;DR本研究通过证明机器翻译中 RL 方法不优化预期奖励的方式,并表明其他方法收敛需要时间过长,以此说明 RL 练习对机器翻译的实际贡献应该限于预先训练的参数接近正确翻译的情况,进一步推测观察到的增益可能与训练信号无关,而是由于分布曲线的形状发生了变化。