跨语言适应多语言预训练语言模型的三重方法

Jun, 2024

跨语言适应多语言预训练语言模型的三重方法

A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs

Vaibhav Singh, Amrith Krishna, Karthika NJ, Ganesh Ramakrishnan

TL;DR研究了三种低资源跨语言方法，并在语境学习和微调下发现通过添加额外的主导语言监督信号，对 LLM 的跨语言转移有所改进；同时，发现将目标语言适应词汇重排可能对 ICL 有益，但随着微调而减弱；最后，继续以一种低资源语言进行预训练可提高其他相关低资源语言的模型性能。

Abstract

low-resource languages, by its very definition, tend to be under represented in the pre-training corpora of Large Language Models. In this work, we investigate three low-resource cross-lingual approaches that ena

low-resource languages cross-lingual transfer llm supervisory signals pre-training

发现论文，激发创造

通过跨语言知识传递向羊驼教授一门新语言

该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型（LLMs），特别关注爱沙尼亚语。通过利用 Llama 2 模型，我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明，即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外，我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移，从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外，我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。

Apr, 2024

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

通过翻译跟随示范提升面向指导训练大型语言模型的跨语言能力

通过在语言模型中建立语义对齐，该研究提出了一种在英语以外的语言中增强指令调整型大型语言模型（It-LLMs）的方法，通过交叉语言指导和翻译指导演示，提高语义对齐，并在六种不同语言上的多语言问答基准测试中验证其方法的效果。

Aug, 2023

跨语言词汇适应的实证研究：高效生成式 LLM 推理

对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。

Feb, 2024

学习跨多种编程语言的迁移

大型语言模型（LLMs）在提高高资源编程语言的开发者生产力方面表现出色。然而，许多低资源编程语言由于缺乏标记样本而无法受益于 LLMs，本研究通过使用源语言数据来提高目标语言的模型性能，并针对 4 个任务进行了广泛实验，以探讨交叉语言迁移学习的工作原理和最佳选择源语言的方式。

Oct, 2023

增强大型语言模型的翻译能力的新范式

本文介绍了一项关于增强大型语言模型（LLMs）在机器翻译（MT）任务中翻译能力的研究，提出了一个包括三个阶段的新范 Paradigm，通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练，以及利用和源语言一致的指导来进行监督微调。实验结果表明，我们的方法在翻译能力方面取得了显著的改进，超过了以前的工作，并在参数数量较小的情况下实现了优越的性能。

Mar, 2024

对抗性数据集上跨语言迁移至资源较少的语言的鲁棒性

多语言语言模型（MLLMs）展现了强大的跨语言转移能力，本研究旨在调查源语言应用于目标语言的效果，特别是在扰动输入测试集的情况下，发现命名实体识别的跨语言转移主要取决于实体块的重叠，研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。

Mar, 2024

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

多语言大型语言模型的跨语言能力和知识障碍

通过评估六种最先进的大型语言模型在跨语言任务上的表现，本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力，但在更深层次的跨语言知识转移上存在困难，揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法，有效减少了这些差距，甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。

Jun, 2024

比较 LLM 提示与跨语言转移性能对土著和低资源巴西语言的影响

大型语言模型在低资源语言上的自然语言处理任务上表现较差，并提供了错误分析和实例解释。

Apr, 2024