机器翻译无参考同行评估评估

ACLApr, 2021

Assessing Reference-Free Peer Evaluation for Machine Translation

Sweta Agrawal, George Foster, Markus Freitag, Colin Cherry

TL;DR通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Abstract

reference-free evaluation has the potential to make machine translation evaluation substantially more scalable, allowing us to pivot easily to new languages or domains. It has been recently shown that the probabi

reference-free evaluation machine translation multilingual model scalability performance

发现论文，激发创造

MT-Ranker: 无参考系统间排序的机器翻译评估

机器翻译评估已被传统上视为回归问题，但这种方法存在两个限制：缺乏可解释性且人工评注者难以给出一致的分数；在真实的场景中，大多数评分方法基于（参考翻译）对，限制了它们的适用性。本研究提出一种新的评估方法，将无参考机器翻译评估转化为配对排序问题，并通过使用自然语言推理的间接监督和合成数据的弱监督来展示其与人类判断的卓越相关性。MT-Ranker 在无人工注释的情况下，在 DARR20、MQM20、MQM21 等 WMT Shared Metrics Task 基准测试上取得了最先进的结果，在包含细粒度评估标准的更有挑战的基准测试 ACES 上，MT-Ranker 在无参考和参考基准线上表现出最先进的水平。

Jan, 2024

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

跨语言编码器的局限性：基于无参考机器翻译评估的揭示

研究跨语言编码器在自然对抗机器翻译系统中的参照无机器翻译评估问题，找到该方法的两个关键限制并提出两种部分解决方案。

May, 2020

BLEU 或许有罪但参考文献并不无辜

本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的 MT 输出，同样具有良好的表现。

Apr, 2020

面向大型语言模型驱动的无参考翻译评估方法：英语和印度语言

本研究评估大型语言模型对于自动无参考翻译评估的有效性，并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。通过构建一个翻译评估任务，我们进行了零样本学习、上下文示例驱动学习和大型语言模型微调，从而提供了一个 0 到 100 的分数，其中 100 表示完美的翻译，1 表示糟糕的翻译。我们将经过训练的系统与现有方法（如 COMET、BERT-Scorer 和 LABSE）进行比较，发现基于大型语言模型的评估器（LLaMA-2-13B）在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。

Apr, 2024

在自然语言生成系统评估中，引用是否有必要？何时何地？

基于广泛的实验，本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能，并表明参考无关度量与人类判断有较高相关性，并对语言质量的不足更敏感，然而其有效性因任务而异，受候选文本质量影响。因此，在应用参考无关度量到新任务时，特别是在输入形式不常见或答案空间高度变化时，有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。

Mar, 2024

质量估计之穷人版：在没有参考文本的情况下预测基于参考文本的机器翻译度量

本文提出了一种基于预训练模型的机器翻译质量评估方法，通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练；实验结果表明，该方法在无需参考标准情况下依然可以上可接受的精度，但也存在一定的局限性。

Jan, 2023

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

人工改写的参考文献改善神经机器翻译

本文研究采用人工生成的同义词组进行翻译评估，结果表明使用同义词组可以更好地反映人类判断，同时使用同义词组进行系统开发可以产生显著的提高。

Oct, 2020

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018