Jun, 2019

通过受限模仿学习实现灵活策略的同时翻译

TL;DR本研究介绍了一种使用延迟标记和受限动态 Oracle 进行简化训练的单模型策略进行同时翻译优化, 实验结果表明,相比固定和强化学习策略,该方法能够实现更好的 BLEU 分数和更低的延迟。