利用大语言模型学习低资源语言的翻译质量评估

Feb, 2023

利用大语言模型学习低资源语言的翻译质量评估

Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models

Amirkeivan Mohtashami, Mauro Verzetti, Paul K. Rubenstein

TL;DR使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的BLEURT模型性能。

Abstract

learned metrics such as bleurt have in recent years become widely employed to evaluate the quality of machine translation systems. Trainin

发现论文，激发创造

学习评估英语之外的翻译：BLEURT参加WMT评估2020共享任务

本文介绍了我们在WMT 2020 Metrics Shared Task中的贡献，通过扩展BLEURT度量标准评估14种语言对以及4种'零样本'语言对，针对英德语言对结合BLEURT和YiSi的预测结果进行性能增强，实验证据表明模型在WMT Metrics 2019 Shared Task中取得了有竞争力的结果，并展示了其在2020年版中的潜力。

Oct, 2020

低资源机器翻译调查

介绍了低资源机器翻译研究领域的现状，重点是在少量翻译训练数据的情况下制备有用的翻译模型的挑战以及在近期几个共享任务中评估研究者的技术的描述。

Sep, 2021

为机器翻译学习紧凑的度量

使用RemBERT模型的实验表明，模型大小限制了跨语言转换的效率，将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题，该方法可以使性能提高10.5％，并仅使用RemBERT的三分之一的参数即可达到92.6％的性能。

Oct, 2021

BLEURT具有通用翻译能力：最小风险训练下自动度量分析

自动评估指标在机器翻译中起着关键作用，研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷，并提出通过引入基于标记的约束来增强评估指标的鲁棒性。

Jul, 2023

错误中蕴藏着魔鬼的力量：利用大型语言模型进行细粒度机器翻译评估

自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具，本文在已有单一评分指标的基础上提出AutoMQM，一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型PaLM和PaLM-2，通过简单的得分预测提示，发现AutoMQM在PaLM-2模型上优于仅提示得分的性能，并能提供与人工注释相一致的错误范围，具有解释性。

Aug, 2023

在源语言中迷失：大型语言模型如何评估机器翻译的质量

大型语言模型在机器翻译评估任务中取得了显著的成果，然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估，从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验，并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性，我们惊讶地发现参考信息显著提高了评估准确性，而源语言信息有时会适得其反，表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估，观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。

Jan, 2024

优质数据到文本生成用于严重资源不足的语言的开箱即用大型语言模型

大型语言模型可以在研究欠资源语言中通过数据到文本生成来弥补性能差距，但人工评估表明BLEU分数相比于英语有所下降，对于评估非任务特定系统其适用性存疑。

Feb, 2024

多语言自然语言处理中的评估实践：机器翻译能否替代人工翻译？

对多语言语言模型进行评估，提出可靠的评估实践方向，通过机器翻译研究其在低资源语言上的性能，并发现简化的基准模型能够取得相对强的性能表现。

Jun, 2024

LLM在低资源翻译中的缺陷：检索和理解均为问题

本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语，探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明，即使是相对较小的语言模型，在提供了足够相关语言信息的情况下，能够通过提示上下文实现零样本低资源翻译。然而，提示类型、检索方法、模型类型和语言特定因素的不确定效果突显了即使是最佳的语言模型也存在于世界上7000多种语言及其使用者的翻译系统中的限制。

Jun, 2024

质量还是数量？在低资源翻译中适应大型语言模型的数据规模和多样性

本文探讨了将大型语言模型（LLMs）适应低资源翻译所需的条件，重点分析了平行数据的重要性和监督微调中的多样性对性能的影响。研究发现，平行数据在预训练和微调过程中对低资源LLM-MT至关重要，而多样性往往导致干扰而非迁移。这些发现具有普遍性，对提升低资源语言的多语种LLM-MT模型具有重要价值。

Aug, 2024