大型语言模型是否是用户生成内容机器翻译的最佳质量评估工具？

Oct, 2024

大型语言模型是否是用户生成内容机器翻译的最佳质量评估工具？

Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content?

Shenbin Qian, Constantin Orăsan, Diptesh Kanojia, Félix do Carmo

TL;DR本文探讨了大型语言模型（LLMs）在无参考翻译的情况下，是否能够作为用户生成内容（UGC）机器翻译的最先进质量评估工具。研究表明，经过参数高效微调（PEFT）的大型语言模型在质量预测方面表现优于微调模型，具有人类可解释的评分，但分析也指出其在评估UGC机器翻译的过程中仍存在输出不稳定和拒绝响应等问题。

Abstract

This paper investigates whether Large Language Models (LLMs) are state-of-the-art quality estimators for Machine Translation of User-generated Co

发现论文，激发创造

专家、误差与上下文: 人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及MQM框架的评估方法，并应用于WMT 2020挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与WMT众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

大型语言模型可以有效地利用文档级别的语境进行文学翻译，但是关键错误仍然存在

通过人工评估，我们发现让Gpt-3.5 (text-davinci-003)从整体上翻译文学段落比逐句翻译更好，并指出大语言模型在翻译时仍存在关键性错误。

Apr, 2023

评估汉英情感微博文本机器翻译：一份用于情感翻译质量评估的人工标注数据集

本文关注机器翻译对情感文本的翻译表现，并通过提出的基于多维质量度量的评估框架，对谷歌翻译的输出进行评估。作者发现大约50%的机器翻译输出没有保留原始情感，并认为情感承载词和语言现象是这些翻译错误的常见原因。

Jun, 2023

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型PaLM和PaLM-2，通过简单的得分预测提示，发现AutoMQM在PaLM-2模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

大型语言模型“ad referendum”: 在法律领域的机器翻译水平如何？

这项研究评估了两个最先进的大型语言模型（LLMs）与传统神经机器翻译（NMT）系统在法律领域的四种语言对中的机器翻译（MT）质量，结合自动评估度量标准（AEMs）和专业翻译员的人工评估（HE）来评估翻译的排序、流畅性和足够性。结果表明，虽然谷歌翻译在AEMs中的表现通常优于LLMs，但人工评估员认为LLMs，特别是GPT-4，在产生上下文足够且流畅的翻译方面略优或相当。这种差异表明LLMs在处理专业法律术语和背景方面具有潜力，并突出了人工评估方法在评估MT质量方面的重要性。本研究强调了LLMs在专业领域的不断进化能力，并呼吁对传统的AEMs进行重新评估，以更好地捕捉LLM生成的翻译的细微差别。

Feb, 2024

面向大型语言模型驱动的无参考翻译评估方法：英语和印度语言

本研究评估大型语言模型对于自动无参考翻译评估的有效性，并通过模拟人类直接评估的实验来评估英语和印度语言译文的质量。通过构建一个翻译评估任务，我们进行了零样本学习、上下文示例驱动学习和大型语言模型微调，从而提供了一个0到100的分数，其中100表示完美的翻译，1表示糟糕的翻译。我们将经过训练的系统与现有方法（如COMET、BERT-Scorer和LABSE）进行比较，发现基于大型语言模型的评估器（LLaMA-2-13B）在考虑的印度语言对上实现了相当或更高的整体相关性与人类判断。

Apr, 2024

通过质量评估指导LLMs的上下文学习来进行机器翻译

利用领域特定的质量评估（QE）引导的搜索算法，借助XGLM模型，本论文提出了一种新的上下文学习（ICL）方法，以预测机器翻译的质量，选择有效的示例以最大化翻译质量，相较于现有ICL方法和预训练语言模型（PLM）mBART-50，实验结果显示了显著的改进和更高的翻译性能。

Jun, 2024

大型语言模型在机器翻译评估中需要什么？

本文探讨了大型语言模型（LLM）在机器翻译（MT）质量评估中所需的翻译信息，包括源文本、参考翻译、翻译错误和注释指南。研究发现，参考翻译在基于LLM的评估中至关重要，且CoT提示技术对大型模型的表现有更显著的提升作用。我们的工作为资源有限且无需训练的LLM-based评估提供了全面分析，并公开了相关提示模板、代码和数据以便复现。

Oct, 2024

情感载体用户生成内容的机器翻译评估多任务学习框架

本研究解决了机器翻译用户生成内容时情感表达和语言特性的评估问题。我们提出了一种新的多任务学习框架，结合情感分类和翻译质量评估，采用创新的损失函数以实现任务的并行处理。研究发现，该方法在多个数据集上达到了最先进的性能，为UGC的机器翻译评估提供了新的视角。

Oct, 2024

大型语言模型在机器翻译评估中需要什么？

本研究探讨了大型语言模型（LLMs）在机器翻译（MT）评估中所需的翻译信息，包括来源、参考、翻译错误和注释指南。研究结果表明，参考翻译对LLM的评估至关重要，同时发现Chain of Thought（CoT）提示对较大模型的影响更为显著，为资源受限的LLM评估提供了全面分析。

Oct, 2024