GEMBA-MQM: 用 GPT-4 检测翻译质量错误片段

Oct, 2023

GEMBA-MQM: 用 GPT-4 检测翻译质量错误片段

GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4

Tom Kocmi, Christian Federmann

TL;DR这篇论文介绍了 GEMBA-MQM，它是一种基于 GPT 的评估指标，专门用于检测翻译质量错误，尤其适用于无需人工参考翻译的质量估计设置。基于大型语言模型（LLM）的强大能力，GEMBA-MQM 采用了固定的三步提示技术，查询 GPT-4 模型以标记错误质量范围。与以前的工作相比，我们的方法具有语言无关的提示，因此避免了为新语言进行手动提示准备。尽管初步结果表明，GEMBA-MQM 在系统排名上达到了最先进的准确性，但鉴于其依赖专有的黑盒 GPT 模型，我们建议在学术论文中谨慎使用它以展示相对于其他方法的改进。

Abstract

This paper introduces gemba-mqm, a GPT-based evaluation metric designed to detect translation quality errors, specifically for the

gemba-mqm evaluation metric translation quality errors quality estimation large language models

发现论文，激发创造

大型语言模型是翻译质量的最先进评估工具

描述了基于 GPT 的翻译质量评估指标 GEMBA，可以用于有参照的和无参照的情况。研究了四个提示变体，并比较了两种方式下的性能表现，发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中，GEMBA 在三种语言对中具有先进的性能表现。

Feb, 2023

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出 AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2，通过简单的得分预测提示，发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

翻译质量测量的多范围理论：MQM 评分模型和统计质量控制

该论文详细介绍了最新的 MQM 发展，并提出了一种适用于三种样本大小范围的通用翻译质量测量方法，还介绍了为非常小的样本大小采用统计质量控制的原因，起点为单个句子。

May, 2024

基于知识提示的评估器：一种新颖的可解释机器翻译评估方法

本文提出一种基于 CoT 提示的 KPE 方法，该方法结合了 Perplexity、Token-Level 相似性和 Sentence-Level 相似性的技术。实验证明，与以前的深度学习模型和单步提示方法相比，该方法的分段估计性能得到了显著提高，并且提供了更好的 MT 质量估计可解释性。

Jun, 2023

错误跨度标注：人工评估机器翻译的平衡方法

机器翻译评估中，综合的错误分类方法如多维度质量度量 (MQM) 需要耗费大量时间和专家参与，而只赋予整体评分，如直接评估 (DA)，虽然简单快捷但可靠性较低。本文提出一种人工评估协议 —— 错误跨度标注 (ESA)，将 DA 的连续评分与 MQM 的高级错误严重程度标记相结合。通过与 12 个 MT 系统和一份人工参考翻译 (英语到德语) 从 WMT23 的 MQM 和 DA 进行比较，验证了 ESA 的有效性。结果显示 ESA 在具有相同质量水平的情况下比 MQM 更快且更便宜，无需昂贵的 MQM 专家。

Jun, 2024

使用错误注释引导大型语言模型进行机器翻译

通过使用 Multidimensional Quality Metric (MQM) 注释中的外部反馈来引导大型语言模型 (LLMs) 自动对机器翻译进行后编辑，以提高翻译质量。使用 LLaMA-2 模型，通过改变反馈的特性，我们考虑了不同的提示策略，并对 LLM 进行微调以提高其利用所提供指导的能力，实验证明提示 LLMs 对机器翻译进行后编辑，可以改善 TER、BLEU 和 COMET 分数，微调有助于更有效地整合细粒度的反馈，并基于自动和人工评估进一步提高翻译质量。

Apr, 2024

双语专家” 能够找出翻译错误

提出了一种基于双向 Transformer 和双向 LSTM 预测模型的机器翻译自动评估框架，能够对 WMT 的翻译结果进行质量评估，并在 WMT 2017/2018 的质量评估任务中取得了最好的性能表现。

Jul, 2018

使用精调的 OpenAI LLM 预测机器翻译输出中的完美质量段落：是否能从历史数据中捕捉编辑距离模式？

大型语言模型可进行细调从而在翻译质量评估方面取得较高的预测准确性。

Jul, 2023

从手工特征到 LLMs：机器翻译质量估计的简要调查

机器翻译质量评估（MTQE）是实时估计机器翻译文本质量的任务，不需要参考翻译，对机器翻译的发展非常重要。本文综述了质量评估数据集、标注方法、共享任务、方法学、挑战和未来研究方向。

Mar, 2024