利用大语言模型学习低资源语言的翻译质量评估
本文介绍了我们在WMT 2020 Metrics Shared Task中的贡献,通过扩展BLEURT度量标准评估14种语言对以及4种'零样本'语言对,针对英德语言对结合BLEURT和YiSi的预测结果进行性能增强,实验证据表明模型在WMT Metrics 2019 Shared Task中取得了有竞争力的结果,并展示了其在2020年版中的潜力。
Oct, 2020
使用RemBERT模型的实验表明,模型大小限制了跨语言转换的效率,将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题,该方法可以使性能提高10.5%,并仅使用RemBERT的三分之一的参数即可达到92.6%的性能。
Oct, 2021
自动评估指标在机器翻译中起着关键作用,研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷,并提出通过引入基于标记的约束来增强评估指标的鲁棒性。
Jul, 2023
自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具,本文在已有单一评分指标的基础上提出AutoMQM,一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型PaLM和PaLM-2,通过简单的得分预测提示,发现AutoMQM在PaLM-2模型上优于仅提示得分的性能,并能提供与人工注释相一致的错误范围,具有解释性。
Aug, 2023
大型语言模型在机器翻译评估任务中取得了显著的成果,然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估,从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验,并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性,我们惊讶地发现参考信息显著提高了评估准确性,而源语言信息有时会适得其反,表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估,观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。
Jan, 2024
大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距,但人工评估表明BLEU分数相比于英语有所下降,对于评估非任务特定系统其适用性存疑。
Feb, 2024
对多语言语言模型进行评估,提出可靠的评估实践方向,通过机器翻译研究其在低资源语言上的性能,并发现简化的基准模型能够取得相对强的性能表现。
Jun, 2024
本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语,探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明,即使是相对较小的语言模型,在提供了足够相关语言信息的情况下,能够通过提示上下文实现零样本低资源翻译。然而,提示类型、检索方法、模型类型和语言特定因素的不确定效果突显了即使是最佳的语言模型也存在于世界上7000多种语言及其使用者的翻译系统中的限制。
Jun, 2024
本文探讨了将大型语言模型(LLMs)适应低资源翻译所需的条件,重点分析了平行数据的重要性和监督微调中的多样性对性能的影响。研究发现,平行数据在预训练和微调过程中对低资源LLM-MT至关重要,而多样性往往导致干扰而非迁移。这些发现具有普遍性,对提升低资源语言的多语种LLM-MT模型具有重要价值。
Aug, 2024