EMNLPOct, 2020

神经机器翻译中的长尾现象

TL;DR本文提出一种新的损失函数 Anti-Focal loss,以更好地适应条件文本生成的结构依赖性,通过在训练过程中合并 beam search 的归纳偏差,从而定量化地表征 Token 分类和序列生成方面的长尾现象,在多个机器翻译数据集上表现出重要改进,特别是在生成低频词方面。