借助语言对齐将大型语言模型推广到非英语语境
通过在语言模型中建立语义对齐,该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型(It-LLMs)的方法,通过交叉语言指导和翻译指导演示,提高语义对齐,并在六种不同语言上的多语言问答基准测试中验证其方法的效果。
Aug, 2023
我们通过对 LLaMA 的实证研究发现,在使用不到 1% 的预训练数据时,可以实现与最先进的转移模型相媲美的性能,无论是在知识对齐还是响应质量方面,这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 LLMs。
Jan, 2024
我们详细调查了将 LLMs 适应到新语言的过程,包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题,我们的实验覆盖了 9 种语言和 2 个参数规模,并与先前的基准模型进行比较,我们的模型表现优于所有先前已发表的基准模型。
Apr, 2024
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
通过构建两个数据集,将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言,并使用 DPO 算法对 LLMs 进行与人类反馈的对齐,实现了对 100 种语言的支持,从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。
Jun, 2024
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行监督微调。实验结果表明,我们的方法在翻译能力方面取得了显著的改进,超过了以前的工作,并在参数数量较小的情况下实现了优越的性能。
Mar, 2024
该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型(LLMs),特别关注爱沙尼亚语。通过利用 Llama 2 模型,我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明,即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外,我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移,从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外,我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。
Apr, 2024
通过两阶段微调算法,改进了大型语言模型(LLMs)遵循翻译指示的能力,特别是翻译方向信息,从而有效降低了错位翻译比率(平均降低 53.3%),提高了翻译质量(平均增加 5.7 SacreBLEU 和 16.4 BLEURT)。
Mar, 2024
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀,ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023
本研究提出了 Instruct-Align 框架,通过对称对齐方法的跨语言指导调整,使大语言模型 (LLMs) 能够有效地学习新语言,同时通过经验重现防止灾难性遗忘,并能将低资源语言纳入到现有的 LLMs 中。
May, 2023