MuLER: 详细和可扩展的基于参考文献的评估

May, 2023

MuLER: 详细和可扩展的基于参考文献的评估

MuLER: Detailed and Scalable Reference-based Evaluation

Taelin Karidi, Leshem Choshen, Gal Patel, Omri Abend

TL;DRMuLER 是一种将文本生成的评估指标转化为细粒度分析工具的新方法，可量化所选度量标准对特定错误类型（例如，位置名称错误）的惩罚程度，并通过分析展示了其在机器翻译等任务中的有效性和可用性。

Abstract

We propose a novel methodology (namely, muler) that transforms any reference-based evaluation metric for text generation, such as machine translation (MT) into a fine-grained analysis tool. Given a system and a metric,

muler machine translation error analysis mt evaluation pos tags

发现论文，激发创造

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

多维机器翻译评估：韩语模型评估和资源

通过提供一个英韩语言对的 1200 句 MQM 评估基准，将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题，在参考 MT 评估和无参考质量估计（QE）设置中，我们发现无参考设置在风格维度上优于参考设置，而参考模型在准确性方面保持优势，总体上，RemBERT 是最有希望的模型。通过我们的评估，以一种更精细化、可解释的方式提供了关于翻译质量的见解。

Mar, 2024

专家、误差与上下文：人工评估机器翻译的大规模研究

研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法，并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同，人工翻译的结果被明显偏爱，但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估，为今后的研究提供公共语料库。

Apr, 2021

跨语言编码器的局限性：基于无参考机器翻译评估的揭示

研究跨语言编码器在自然对抗机器翻译系统中的参照无机器翻译评估问题，找到该方法的两个关键限制并提出两种部分解决方案。

May, 2020

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出 AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2，通过简单的得分预测提示，发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

能否更简单地做到这一点？自然语言生成的简单、高效、高质量评估指标

本文探讨了自然语言生成的有效评估指标，以及通过使用轻量级版本的 Transformer 和线性、二次逼近算法来实现评估指标的高效计算，研究发现，TinyBERT 在语义相似性评估指标方面表现最佳，并且在平均推理时间上比原算法要快 5 倍，但 WMD 近似计算并没有带来效率提升，反而在部分机器翻译数据集上使得质量下降。

Sep, 2022

机器翻译系统的定量细致人类评估：以英语到克罗地亚语为例的案例研究

本文提出了一种基于多维质量度量（Multidimensional Quality Metrics，MQM）误差分类的手动评估方法，以评估不同机器翻译系统之间的性能差异是否显著，针对英语到克罗地亚语这一翻译方向，比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统，发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。

Feb, 2018

学习评估英语之外的翻译：BLEURT 参加 WMT 评估 2020 共享任务

本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献，通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对，针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强，实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果，并展示了其在 2020 年版中的潜力。

Oct, 2020

HilMeMe: 一种基于人机交互的机器翻译准确度度量方法，关注多词表达

本文介绍了一种基于多词表达式的人机协作评估度量方法，旨在评估机器翻译系统中多词表达式的准确性和语义等价性，以此作为评估机器翻译系统的指标。

Nov, 2022

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021