May, 2022

标签平滑对 Beam Search 解码呈现的隐式长度偏差

TL;DR在神经机器翻译中,标签平滑虽然在模型训练过程中提供了所需的正则化效果,但本文演示其对波束搜索解码过程产生长度偏差。我们还证明,对于完全优化的标签平滑模型,翻译长度受到独立于输入的固定常量的隐含上限约束。通过在推理时应用一个简单的修正函数来恢复标签平滑模型预测中的无偏分布,我们验证了我们的理论。这种校正方法在 WMT 英德、英法、英捷和英汉任务中产生了一致的质量改进,波束大小为 4 时最高可达 + 0.3 BLEU,波束大小为 200 时可达 + 2.8 BLEU。