COMET-QE 与主动学习在低资源机器翻译中的应用
本研究介绍了一种名为 xCOMET 的开源学习度量方法,它融合了语句级评估和错误跨度检测能力,并展现出在各种评估类型(语句级、系统级和错误跨度检测)方面的最先进性能,同时突出和分类错误跨度,从而丰富了质量评估。通过稳健性分析和压力测试,我们还表明 xCOMET 在识别局部关键错误和产生幻觉方面有很强的能力。
Oct, 2023
介绍了 COMET,这是一个使用神经网络的多语言机器翻译评估模型,它利用了跨语言预训练语言建模的最新进展,通过同时使用源输入和目标语言的参考翻译来更准确地预测机器翻译的质量,并在 WMT 2019 指标共享任务中获得了新的最优表现,并展示了对高性能系统的鲁棒性。
Sep, 2020
使用质量评估指标(QE)的方法 ——QE-fusion,能够利用候选池子中的不同候选结合 QE 度量,从而更好地对应人类判断,从而合成改进的翻译。QE-fusion 是一种与波束搜索和最新的重新排序技术(如最小贝叶斯风险解码和 QE - 重新排序)相比的方法,能在大型语言模型和多语种翻译模型上提高翻译质量。该方法在近半数的情况下生成了新颖的翻译,并在候选数量(5-200)不同的情况下始终优于其他方法。此外,实验证明 QE-fusion 与候选池中的候选数量呈线性关系,并且无需对大型语言模型进行昂贵的重新训练。
Jan, 2024
通过创建人工评估数据和简化的 MQM 指南,以及利用高资源语言的 DA 训练数据和 AfroXLM-Roberta 多语言编码器,我们解决了多语言机器翻译在非洲语言方面的挑战,并创建了最先进的评估指标 AfriCOMET,得到了与人工判断的 Spearman-rank 相关系数为 +0.406。
Nov, 2023
利用精简和压缩技术,我们创建了高效的 xCOMET 替代方法,并使用黑盒蒸馏数据收集管道,实验证明,经过量化处理后,xCOMET 可以压缩至原体积的三分之一,且质量不降低;通过蒸馏,我们创建了一个 xCOMET-lite 度量方法,它仅含有 xCOMET-XXL 参数的 2.6%,但保持了 92.1% 的质量,并且在 WMT22 度量挑战数据集上比 COMET-22 和 BLEURT-20 等小规模方法提高了 6.4%,即使用的参数量减少了 50%。
Jun, 2024
本文介绍了我们团队在 WMT 2022 共享任务中的质量估计(QE)的三个子任务中所取得的最佳结果,其中我们应用了 COMET 框架,并将其与 OpenKiwi 的预测器 - 评估器架构相结合,并配备了一个单词级序列标注器和一个解释提取器。
Sep, 2022
本文使用 Joey NMT 工具包中的 Active Learning 技术,通过两种基于模型的获取函数 (BM, FTM, ALLCM, 和 ALMSM),研究了英语到印地语的神经机器翻译。本文的结果表明,Active Learning 技术能够使模型更早地达到收敛并提高整个翻译系统的质量,其中 ALLCM 和 ALMSM 两种模型取得了最好的 BLEU 分数。
Dec, 2022
本文研究了最小贝叶斯风险(MBR)解码在自我改进机器翻译(MT)中的应用,特别是针对领域适应和资源匮乏的语言。通过使用 COMET 作为 MBR 效用度量,我们实现了在 MBR 解码的正向翻译上微调模型的自我改进过程,旨在实现与人类偏好更为一致的翻译重新排名。该文探讨了这种方法的迭代应用和可能需要语种特定 MBR 效用度量的潜在需求。结果显示,在所有考察的语言对中,包括领域适应模型的成功应用和对资源匮乏环境的泛化,都显著提高了翻译质量。这突显了 COMET 指导的 MBR 在各种场景下实现高效 MT 自我改进的潜力。
May, 2024
本文研究了神经度量与传统度量方法在评估机器翻译中的差异,并开发了多种神经可解释性方法来解释这些度量方法,并证明这些方法能够有效地分析翻译错误,促进未来的研究。
May, 2023
我们介绍了 Unbabel 和 Instituto Superior Técnico 在 WMT 2023 共享任务上对资料估计(QE)的联合贡献。我们的团队参与了所有任务:句子和单词水平的质量预测(任务 1)以及精细错误跨度检测(任务 2)。对于所有任务,我们基于 COMETKIWI-22 模型(Rei et al., 2022b)进行开发。我们的多语种方法在所有任务中排名第一,在单词、跨度和句子级别的质量估计方面达到了最新水平的性能。与以前的最新技术 COMETKIWI-22 相比,我们在与人类判断相关性方面取得了很大的改进(达到了 10 个 Spearman 分数)。此外,我们在共享任务中超过了第二好的多语种提交,达到了 3.8 个绝对分数。
Sep, 2023