ACLJun, 2020

BLEU 的黑箱:重新评估自动机器翻译评估指标

TL;DR研究了自动度量在机器翻译系统开发和评估中的问题,发现现有的判断度量方法对于用于评估的翻译非常敏感,特别是存在异常值的情况下,经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法,可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明,需要改进度量评估和系统性能评估协议。