语言模型与循环一致性用于自反机器翻译
本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战,并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中,本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。
Apr, 2023
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器ALMA,该模型在WMT'21和WMT'22的测试数据集上相比于之前的工作和具有7B或13B参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
大型语言模型在机器翻译评估任务中取得了显著的成果,然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估,从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验,并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性,我们惊讶地发现参考信息显著提高了评估准确性,而源语言信息有时会适得其反,表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估,观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。
Jan, 2024
神经机器翻译(NMT)的进化受到六个核心挑战的显著影响,本研究重新审视这些挑战,提供有关高级大型语言模型(LLMs)背景下其持续相关性的见解:领域不匹配、平行数据量、罕见词预测、长句翻译、注意力模型作为词对齐以及次优束搜索,我们的实证发现表明LLMs在主要语言的预训练阶段有效减少对平行数据的依赖,LLM基于的翻译系统显著提高了包含大约80个单词的长句翻译,并且可翻译长度达512个单词的文档。然而,尽管取得了显著改进,领域不匹配和罕见词预测的挑战仍然存在。虽然与NMT特定相关的词对齐和束搜索的挑战可能不适用于LLMs,但我们确定了LLMs在翻译任务中面临三个新的挑战:推理效率、预训练阶段对低资源语言的翻译以及人对齐评估。数据集和模型在此https URL上发布。
Jan, 2024
使用大型语言模型的自我纠正翻译框架TER,在不同语言、高资源和低资源语言之间实现了大幅度的翻译质量提升,并比较了不同的模型和估计策略对翻译质量的影响,同时探究了语言模型的评估能力与翻译质量之间的潜在关系。
Feb, 2024
通过提出MT-Patcher框架,将知识从大型语言模型传输到中型机器翻译模型,仅识别和纠正学生翻译模型的翻译错误,而不是将整个翻译知识从教师模型中提取,通过利用大型语言模型的语言能力,预测学生的潜在错误和多样化的语境提高翻译性能。
Mar, 2024
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行监督微调。实验结果表明,我们的方法在翻译能力方面取得了显著的改进,超过了以前的工作,并在参数数量较小的情况下实现了优越的性能。
Mar, 2024
通过将MT编码器直接集成到LLM主干中,我们通过样本高效的自我蒸馏获得了MT-LLM,从而将低资源语言与以英语为中心的LLM中嵌入的丰富知识相结合,实现了跨语言的多语言语言理解。
Jun, 2024
本文探讨了大型语言模型(LLM)在机器翻译(MT)质量评估中所需的翻译信息,包括源文本、参考翻译、翻译错误和注释指南。研究发现,参考翻译在基于LLM的评估中至关重要,且CoT提示技术对大型模型的表现有更显著的提升作用。我们的工作为资源有限且无需训练的LLM-based评估提供了全面分析,并公开了相关提示模板、代码和数据以便复现。
Oct, 2024
本研究探讨了大型语言模型(LLMs)在机器翻译(MT)评估中所需的翻译信息,包括来源、参考、翻译错误和注释指南。研究结果表明,参考翻译对LLM的评估至关重要,同时发现Chain of Thought(CoT)提示对较大模型的影响更为显著,为资源受限的LLM评估提供了全面分析。
Oct, 2024