LLaMA 跨越英语:语言能力转移的实证研究
通过建立语言间的语义对齐,提出通过使用非英语训练数据来增强预训练大型语言模型在非英语语言上的能力,并通过实验结果证明此方法在六种非英语语言上超过英语模型 42.50%,在汉语人文任务上超过英语模型 8.2%。同时发现,使用非英语文本作为翻译数据的目标端特别有效,且随着翻译任务数据规模的扩大,语言模型内部的语义对齐能够进一步加强。
Aug, 2023
我们详细调查了将 LLMs 适应到新语言的过程,包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题,我们的实验覆盖了 9 种语言和 2 个参数规模,并与先前的基准模型进行比较,我们的模型表现优于所有先前已发表的基准模型。
Apr, 2024
本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战,并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中,本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。
Apr, 2023
基于大型语言模型(LLMs),本研究评估了 Llama2 在机器翻译方面的能力,并探讨了对训练数据中语言的依赖性。实验证明,7B 规模的 Llama2 模型对其已见过的所有语言都具有 10 BLEU 分数以上,但对未见过的语言不一定如此。我们的语言距离分析表明,句法相似性并非决定翻译质量的主要语言因素。有趣的是,我们发现在特定条件下,某些语言虽然训练数据明显少于英语,却与英语具有可比较的强相关性。本研究结果为目前 LLMs 的发展提供了新的视角,提出了以非英语语言为中心构建多语言模型的可能性。
Feb, 2024
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
May, 2023
通过使用机器翻译作为涉及英语和 22 种印度语言的任务,我们探索了大型语言模型的多语言能力,研究了原始模型的翻译能力和上下文学习能力,通过参数高效的微调方法和完全微调,我们确定了最佳性能的大型语言模型。结果表明,大型语言模型在包括目前在 LLMs 中代表较少的语言的机器翻译能力方面取得了显著的进展。
Nov, 2023
通过在语言模型中建立语义对齐,该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型(It-LLMs)的方法,通过交叉语言指导和翻译指导演示,提高语义对齐,并在六种不同语言上的多语言问答基准测试中验证其方法的效果。
Aug, 2023
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
使用数据扩充方法,我们训练了一个多模态的阿姆哈拉语大型语言模型 (LLM),并引入了一个用于评估的阿姆哈拉语版本的基准数据集。
Mar, 2024
近期,在自然语言处理方面的最新进展中,大型语言模型(LLM)得到了广泛应用,它们在上下文学习下表现出良好性能,甚至适用于未知的任务和语言。然而,它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型(mT0,LLaMa 2 和 GPT-4)在 30 种非洲语言上的五个任务(新闻主题分类,情感分类,机器翻译,问答和命名实体识别)的表现。结果显示,所有的大型语言模型在非洲语言上的表现都低于水平,与英语等高资源语言相比,性能差距较大。我们发现,GPT-4 在分类任务上表现平均或令人印象深刻,但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是,我们发现 mT0 在非洲语言上的跨语言问答表现最佳,超过了最先进的有监督模型(即,微调的 mT5)和 GPT-4 的表现。总体而言,由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库,因此其表现最差。总的来说,我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表,因为这些模型越来越受欢迎。
Nov, 2023