MuLER: 详细和可扩展的基于参考文献的评估
通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。
Mar, 2024
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具,本文在已有单一评分指标的基础上提出 AutoMQM,一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2,通过简单的得分预测提示,发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能,并能提供与人工注释相一致的错误范围,具有解释性。
Aug, 2023
本文探讨了自然语言生成的有效评估指标,以及通过使用轻量级版本的 Transformer 和线性、二次逼近算法来实现评估指标的高效计算,研究发现,TinyBERT 在语义相似性评估指标方面表现最佳,并且在平均推理时间上比原算法要快 5 倍,但 WMD 近似计算并没有带来效率提升,反而在部分机器翻译数据集上使得质量下降。
Sep, 2022
本文提出了一种基于多维质量度量(Multidimensional Quality Metrics,MQM)误差分类的手动评估方法,以评估不同机器翻译系统之间的性能差异是否显著,针对英语到克罗地亚语这一翻译方向,比较了纯基于短语的、分解短语的和神经网络三种不同范例的机器翻译系统,发现神经网络机器翻译方法在长距离一致现象的处理方面具有特别的有效性。
Feb, 2018
本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献,通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对,针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强,实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果,并展示了其在 2020 年版中的潜力。
Oct, 2020
本文介绍了一种基于多词表达式的人机协作评估度量方法,旨在评估机器翻译系统中多词表达式的准确性和语义等价性,以此作为评估机器翻译系统的指标。
Nov, 2022
通过使用大型多语言模型的概率作为参考度量标准,本文尝试了各种修改以推进无参考评估,并且分析了一些潜在的弱点,结果表明这种方法是出乎意料的稳健,可能在广泛领域和系统质量方面提供合理的性能。
Apr, 2021