关于机器翻译结果的大规模文档层面人工评估用户界面

ACLApr, 2021

关于机器翻译结果的大规模文档层面人工评估用户界面

On User Interfaces for Large-Scale Document-Level Human Evaluation of Machine Translation Outputs

Roman Grundkiewicz, Marcin Junczys-Dowmunt, Christian Federmann, Tom Kocmi

TL;DR研究发现，针对机器翻译的人工评估需要考虑文本上下文，然而用户界面对于标注者的生产力和评估可靠性的影响却鲜有研究。本文通过比较两种不同方法获得的人工评估数据，证明了一个以文档为中心的评估方法可以提高数据的质量，但却需要更多的时间投资。

Abstract

Recent studies emphasize the need of document context in human evaluation of machine translations, but little research has been done on the impact of user interfaces on annotator productivity and the reliability

document context machine translations user interfaces human assessment data document-level evaluation

发现论文，激发创造

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及 3) 虽然通过重新分割步骤引入了分割噪声，但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

测量文档级机器翻译系统中的语境利用

文件级别的翻译模型通常使用一般性指标（如 BLEU）进行评估，而这些指标对于上下文的益处并不具有信息量。我们的研究提出了补充基于准确性评估的上下文利用度量的方法，并且通过扰动分析发现这是一种有效的全局上下文利用度量。此外，我们还提出了一种细粒度的现象特定评估方法，用于衡量对处理上下文相关的话语现象的支持上下文的贡献。我们的研究结果表明自动注释的支持上下文与人工注释的上下文给出了类似的结论，并可以作为人工注释不可用的情况下的替代方法。最后，我们强调了在评估上下文利用度时使用话语丰富的数据集的重要性。

Feb, 2024

背景对任务导向的对话系统中的众包评估标签的影响

使用大型语言模型对对话上下文进行摘要，以提供丰富而简短的对话上下文描述，并研究其对标注人员性能的影响。通过减少上下文提供来获得更积极的评分，而提供完整的对话上下文则能够获得更高质量的相关性评分，但会引入有用性评分的歧义。使用第一个用户话语作为上下文能够获得一致的评分，减少标注工作量。研究结果展示了任务设计，特别是对话上下文的可用性如何影响众包评估标签的质量和一致性。

Apr, 2024

探究人机评估并行口语翻译的相关性

评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如此。

Jun, 2024

SLIDE：使用滑动文档窗口进行无参考机器翻译评估

通过使用滑动窗口对每个测试集文档进行块级句子处理，并将每个块输入未经修改的现成品质估计模型，我们提出了一个名为 SLIDE（滑动文档评估器）的度量标准，发现 SLIDE 比其句子级基准模型在配对系统准确性上获得了显著改进，有时甚至消除了与基于参考文献的度量标准之间的差距，这表明源上下文可能提供与人类参考文献相同的信息。

Sep, 2023

上下文对聊天翻译评估是否有帮助？

通过对自动度量、机器翻译聊天等领域进行元评估，我们发现引用自由度量相较于引用依赖度量滞后，尤其在评估英文以外的翻译质量时。我们研究了如何将对话上下文信息融入度量中，并发现将上下文信息与神经学习度量相结合有助于提高自由度量在无参考情景下与人类判断的相关性，以及在评估英文以外的翻译时的性能。最后，我们提出了一种新的评估度量方法 Context-MQM，并验证了添加上下文即使对基于大型语言模型（LLM）的评估度量也是有帮助的。

Mar, 2024

多模态文档质量评估联合模型

本文研究在评估维基百科文章和学术论文质量方面，采用同时结合文本内容和文档视觉渲染的联合模型来捕捉文档质量的显式和隐式特征，实验结果表明，文本和视觉特征是互补的，能够达到最先进的效果。

Jan, 2019

重新思考对话系统的评估：用户反馈对众包工作者和 LLM 的影响

该研究关注用户反馈在评估面向任务型对话系统时的作用，研究发现用户反馈会影响系统评估结果，对于众包工作者而言，用户反馈对有用性和趣味性的评估更具影响力，而对大型语言模型来说，则更看重趣味性和相关性的评估，用户反馈也有助于提高众包工作者在模糊或复杂用户需求下的一致性，这些发现强调了用户反馈在优化系统评估方面的重要性，并提出了将自动化反馈整合到未来研究中的潜力。

Apr, 2024