MT Metrics 与人类对同声传译的评分相关

Nov, 2022

MT Metrics 与人类对同声传译的评分相关

MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation

Dominik Macháček, Ondřej Bojar, Raj Dabre

TL;DR对英德语同声传译任务的候选系统进行评估时，离线机器翻译指标与连续评分器（CR）有很强的相关性，因此可以可靠地用于同时模式下的机器翻译评估，从而减轻了人工评估的需求。

Abstract

There have been several studies on the correlation between human ratings and metrics such as BLEU, chrF2 and COMET in machine translation. Most, if not all consider full-sentence translation. It is unclear whethe

machine translation simultaneous speech translation correlation analysis automatic metrics human ratings

发现论文，激发创造

探究人机评估并行口语翻译的相关性

评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如此。

Jun, 2024

机器翻译指标外部评估

本文研究了自动机器翻译度量在句子级别（段落级别评估）中区分好的翻译和坏的翻译的可靠性，并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务（对话状态跟踪，问题回答和语义分析）上评估了最广泛使用的 MT 度量（chrF，COMET，BERTScore 等）的段落级别性能。我们的实验表明，所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现，神经度量提供的分数大多数不是可解释的，因为其值域未定义。我们的分析表明，将来的 MT 指标应该被设计成产生错误标签而不是得分，以便于外在评估。

Dec, 2022

自动机器翻译评估指标的全面评估：是否需要进行交付

该研究对机器翻译中评估标准的可靠性进行了探究，发现使用自动指标作为唯一评判标准可能导致错误决策，需要依赖人工判断作为参考，并发布了收集到的大规模人工翻译质量评价数据集，以供进一步研究。

Jul, 2021

评估 IWSLT2023 语音翻译任务：人工标注、自动评估和分割

从机器翻译系统开发中，人类评估一直是一个关键组成部分，并在文本翻译研究中受到了广泛关注。然而，在人类评估语音翻译方面，之前的研究工作很少，这增加了噪声数据和分割不匹配等额外挑战。我们通过对最近的第 23 届口语翻译国际研讨会（IWSLT 2023）中几项共享任务的结果进行全面人类评估，填补了这一空白。我们提出了一种基于自动重新分割和带有分割上下文的直接评估的有效评估策略。我们的分析揭示了以下结论：1) 提出的评估策略稳健，与其他类型的人类判断得分相关性很好；2) 自动指标通常与直接评估得分相关性较好，但不总是如此；以及 3) 虽然通过重新分割步骤引入了分割噪声，但 COMET 作为一种自动指标略优于 chrF。为了促进进一步的研究，我们发布了收集到的人类标注数据。

Jun, 2024

针对混合语言自动语音识别的基准评估指标

研究了多语种自动语音识别中的代码切换问题，提出了基于人工判断的评价指标，并通过多种指标的比较得到了最优方法 —— 采用音译和文本规范化，同时发布了第一个阿拉伯语 / 英语对话语境中人类接受度的语料库。

Nov, 2022

BLEU 的黑箱：重新评估自动机器翻译评估指标

研究了自动度量在机器翻译系统开发和评估中的问题，发现现有的判断度量方法对于用于评估的翻译非常敏感，特别是存在异常值的情况下，经常会导致关于指标作用的错误结论。研发了一种用于阈值性能提高的算法，可以模拟在与人工判定相比的情况下出现的 2 类误差。这些结果表明，需要改进度量评估和系统性能评估协议。

Jun, 2020

BLEU Meets COMET: 结合词汇和神经度量以实现机器翻译评估的稳健性

本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合，通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标，提高了最新状态下的机器翻译评估方法的稳健性，从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。

May, 2023

MMTE：评估隐喻语言机器翻译质量的语料库和度量

机器翻译的评估方法主要关注流畅度和事实可靠性，而对比喻质量关注较少。本文研究机器翻译的比喻质量，并提出了一组以比喻语言翻译为重点的人工评估指标。我们还介绍了一个多语言平行比喻语料库，并设计了评估协议来评估机器翻译的隐喻等价性、情感、真实性和质量。通过观察，我们发现比喻表达的翻译与字面意义的翻译具有不同的特点。

Jun, 2024

人工评价与自动评价：相关性设计的重要性

本文讨论了在自然语言生成领域中，自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明，根据使用系统级或句子级相关性分析，自动评分和人类判断之间的相关性结果是不一致的。

May, 2018

经过训练的机器翻译度量指标学会适应机器翻译的参考译文

通过对机器翻译（MT）的人类评估训练的神经度量标准进行控制实验，将未经人类评估培训的基准度量标准（Prism）与经过培训的同一度量标准（Prism+FT）进行比较。令人惊讶的是，Prism+FT 对于机器翻译参考文献的鲁棒性更强，而这在 MT 评估中是一个臭名昭著的问题。这表明度量标准训练的效果超出了改善与人类判断整体相关性的预期效果。

Dec, 2023