令人尴尬的简单文档级机器翻译度量方法:如何将任何预训练度量转化为文档级度量
通过对机器翻译(MT)的人类评估训练的神经度量标准进行控制实验,将未经人类评估培训的基准度量标准(Prism)与经过培训的同一度量标准(Prism+FT)进行比较。令人惊讶的是,Prism+FT 对于机器翻译参考文献的鲁棒性更强,而这在 MT 评估中是一个臭名昭著的问题。这表明度量标准训练的效果超出了改善与人类判断整体相关性的预期效果。
Dec, 2023
本文研究了自动机器翻译度量在句子级别(段落级别评估)中区分好的翻译和坏的翻译的可靠性,并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务(对话状态跟踪,问题回答和语义分析)上评估了最广泛使用的 MT 度量(chrF,COMET,BERTScore 等)的段落级别性能。我们的实验表明,所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现,神经度量提供的分数大多数不是可解释的,因为其值域未定义。我们的分析表明,将来的 MT 指标应该被设计成产生错误标签而不是得分,以便于外在评估。
Dec, 2022
本研究提出一种基于文档级度量的神经机器翻译培训方法,使用最小风险训练和蒙特卡罗采样来逼近预期的文档 BLEU 梯度,进而提高了 NMT 性能表现,并在文档级别的 TER 和语法错误修复(GEC)方面取得了一定的进展。
May, 2020
利用精简和压缩技术,我们创建了高效的 xCOMET 替代方法,并使用黑盒蒸馏数据收集管道,实验证明,经过量化处理后,xCOMET 可以压缩至原体积的三分之一,且质量不降低;通过蒸馏,我们创建了一个 xCOMET-lite 度量方法,它仅含有 xCOMET-XXL 参数的 2.6%,但保持了 92.1% 的质量,并且在 WMT22 度量挑战数据集上比 COMET-22 和 BLEURT-20 等小规模方法提高了 6.4%,即使用的参数量减少了 50%。
Jun, 2024
本文研究了神经度量与传统度量方法在评估机器翻译中的差异,并开发了多种神经可解释性方法来解释这些度量方法,并证明这些方法能够有效地分析翻译错误,促进未来的研究。
May, 2023
Unbabel 团队在 WMT 2020 共享任务中提交了关于分段级别、文档级别和系统级别所有语言对的模型,并提出了一种简单的将分段级别预测转换为文档级别得分的技术,其结果表明使用 COMET 框架训练的模型取得了所有语言对的强大结果,在许多情况下,都提高了最先进的水平。
Oct, 2020
使用 RemBERT 模型的实验表明,模型大小限制了跨语言转换的效率,将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题,该方法可以使性能提高 10.5%,并仅使用 RemBERT 的三分之一的参数即可达到 92.6%的性能。
Oct, 2021
机器翻译中,自动评估指标在评分更长的翻译文本方面的有效性仍不清楚。本文提出了一种通过现有句子级数据创建段落级数据用于训练和元评估指标的方法,并利用这些新数据集对现有句子级指标进行基准测试,以及在段落级训练学习指标。有趣的是,我们的实验结果表明,使用句子级指标评分整个段落与使用专为段落级工作的指标同样有效。我们推测这一结果可能归因于基于参考的评估任务的特性以及数据集在捕捉段落级翻译中发生的各种现象方面的局限性。
Aug, 2023
介绍了 COMET,这是一个使用神经网络的多语言机器翻译评估模型,它利用了跨语言预训练语言建模的最新进展,通过同时使用源输入和目标语言的参考翻译来更准确地预测机器翻译的质量,并在 WMT 2019 指标共享任务中获得了新的最优表现,并展示了对高性能系统的鲁棒性。
Sep, 2020
本文提出了一种基于预训练模型的机器翻译质量评估方法,通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练;实验结果表明,该方法在无需参考标准情况下依然可以上可接受的精度,但也存在一定的局限性。
Jan, 2023