EMNLPOct, 2020
神经机器翻译中的长尾现象
On Long-Tailed Phenomena in Neural Machine Translation
Vikas Raunak, Siddharth Dalmia, Vivek Gupta, Florian Metze
TL;DR本文提出一种新的损失函数 Anti-Focal loss,以更好地适应条件文本生成的结构依赖性,通过在训练过程中合并 beam search 的归纳偏差,从而定量化地表征 Token 分类和序列生成方面的长尾现象,在多个机器翻译数据集上表现出重要改进,特别是在生成低频词方面。