PreQuEL:机器翻译输出的预测质量评估
本文提出了一个用于噪声文本机器翻译的基准数据集(MTNT),包括Reddit上的嘈杂评论和专业翻译。作者们通过定性和定量的方法检验了该数据集中所包含的各类噪声,并证明了现有机器翻译模型在应对各种噪声方面的表现不佳,这表明MTNT可以为处理MT中的噪声文本提供一个吸引人的测试平台。
Sep, 2018
本文提出 DirectQE 框架,通过直接预训练来提高机器翻译质量估计(QE)任务的性能,其中生成器训练产生更接近真实 QE 数据的伪数据,检测器使用类似 QE 任务的新目标在这些数据上进行预先训练。在广泛使用的基准测试中,DirectQE 胜过现有方法,而且没有使用任何预训练模型,如 BERT。
May, 2021
本文探讨了以往机器翻译的词汇质量评估模型的局限性,并提出了基于强大的预训练Transformer模型的跨语言通用性的词汇质量评估模型,证明其在跨语言模型训练、零样本/少样本数据归集的情况下,很好地泛化了,并且在实际应用中具有更广泛的应用前景。
May, 2021
本文提出QUAK, 是一个自动生成的合成QE数据集(包括三个子数据集),可用于提高机器翻译输出质量的自动预测。该数据集是通过三种相对自由的生成策略产生的,具有良好的可扩展性,已扩展到1.58M到6.58M。对数据集进行统计分析后发现,QUAK-M,P中添加数据可获得显著性能提升。
Sep, 2022
本文介绍了一种强大的质量估计系统,通过结合领域自适应和数据增强的方法,解决了数据稀缺和领域匹配的问题,获得了明显的性能提升,具有更好的跨语种推理和零样本学习表现。
Apr, 2023
本文研究了使用平行语料库来估计由数据驱动机器翻译系统产生的翻译质量,并展示了该简单直接的方法对机器翻译系统的翻译质量估计具有潜在的应用价值。
Jun, 2023
介绍了一个跨越146种语言对的对比挑战集ACES,以发现度量标准是否能够识别68种翻译准确性错误,并通过对WMT 2022和2023度量标准共享任务中的50个度量标准进行基准测试,评估其渐进性能和对各种语言现象的敏感性。结果显示,不同的度量标准家族在不同的现象上存在困难,并且基于大型语言模型的方法的可靠性表现不佳。扩展了ACES以包括错误跨度注释,称为SPAN-ACES,并使用该数据集评估基于跨度的错误度量,结果表明这些度量标准还需要较大改进。最后,提供了构建更好的机器翻译度量标准的一些建议,包括专注于错误标签而非分数,融合多个度量标准,设计明确专注于源句的策略,专注于语义内容,并选择适合的基本模型来进行表示。
Jan, 2024