Jun, 2024

机器翻译质量评估中的文本相似度作为关键指标

TL;DR使用句子转换和余弦相似度来衡量语义上的相似度,本研究将 “文本相似性” 引入机器翻译(MT)质量估计(QE)作为一种新的度量标准。通过分析 MLQE-PE 数据集,我们发现文本相似性与人工评分的相关性比传统指标(hter、模型评估等)更强。应用 GAMMs 作为统计工具,我们证明了文本相似度在多种语言对中一致优于其他指标来预测人工评分。我们还发现 “hter” 在质量估计中无法准确预测人工评分。我们的发现突出了文本相似性作为一个强大的质量估计度量标准,建议将其与其他指标结合到 QE 框架和 MT 系统训练中,以提高准确性和可用性。