机器翻译无参考同行评估评估
机器翻译评估已被传统上视为回归问题,但这种方法存在两个限制:缺乏可解释性且人工评注者难以给出一致的分数;在真实的场景中,大多数评分方法基于(参考翻译)对,限制了它们的适用性。本研究提出一种新的评估方法,将无参考机器翻译评估转化为配对排序问题,并通过使用自然语言推理的间接监督和合成数据的弱监督来展示其与人类判断的卓越相关性。MT-Ranker 在无人工注释的情况下,在 DARR20、MQM20、MQM21 等 WMT Shared Metrics Task 基准测试上取得了最先进的结果,在包含细粒度评估标准的更有挑战的基准测试 ACES 上,MT-Ranker 在无参考和参考基准线上表现出最先进的水平。
Jan, 2024
本研究通过比较不同收集参考文献的方法,找到了提高机器翻译自动测量与人工评估相关性的关键。同时,提出了基于语言学家的改写任务,解决了传统参考文献的单调性问题,它不仅能够提高 WMT 2019 英德翻译的相关性,而且对于后翻译和 APE 增强的 MT 输出,同样具有良好的表现。
Apr, 2020
本研究评估大型语言模型对于自动无参考翻译评估的有效性,并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。通过构建一个翻译评估任务,我们进行了零样本学习、上下文示例驱动学习和大型语言模型微调,从而提供了一个 0 到 100 的分数,其中 100 表示完美的翻译,1 表示糟糕的翻译。我们将经过训练的系统与现有方法(如 COMET、BERT-Scorer 和 LABSE)进行比较,发现基于大型语言模型的评估器(LLaMA-2-13B)在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。
Apr, 2024
基于广泛的实验,本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能,并表明参考无关度量与人类判断有较高相关性,并对语言质量的不足更敏感,然而其有效性因任务而异,受候选文本质量影响。因此,在应用参考无关度量到新任务时,特别是在输入形式不常见或答案空间高度变化时,有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。
Mar, 2024
本文提出了一种基于预训练模型的机器翻译质量评估方法,通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练;实验结果表明,该方法在无需参考标准情况下依然可以上可接受的精度,但也存在一定的局限性。
Jan, 2023
该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成(QG)时发现,使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法,通过利用大型语言模型来评估问题的自然性、可回答性和复杂性,该度量方法不受单个参考问题的句法或语义限制,也不需要多样化的参考文献集合。实验证明,该度量方法能够准确区分高质量问题和有缺陷的问题,并与人类判断达到最先进的一致性。
Mar, 2024
提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架,能够对 WMT 的翻译结果进行质量评估,并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。
Jul, 2018