关于基于解码器的多语言模型跨语言提示调优的分析

Nov, 2023

关于基于解码器的多语言模型跨语言提示调优的分析

On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model

Nohil Park, Joonsuk Park, Kang Min Yoo, Sungroh Yoon

TL;DR多语言模型中，通过参数高效微调和基于令牌的提示微调，令牌提示微调在所有语言上实现了与或更好的性能，对低资源语言的性能提升更为有效，这一现象与多语言模型的标记化方案有关。

Abstract

An exciting advancement in the field of multilingual models is the emergence of autoregressive models with zero- and few-shot capabilities, a phenomenon widely reported in large-scale language models. To further

发现论文，激发创造

零样本跨语言Prompt调整的统一多语言Prompt传递

本文提出了一种使用UniPrompt的新型模型，其使用单一的多语言prompt并且具有语言不可知性，可以显著提高在零样本跨语言设置下的转移性能。

Feb, 2022

通过多语言自适应微调将预训练语言模型改进到非洲语言

本文通过多语言自适应微调方法，改进了前馈神经网络(AfriBERTa和XLM-R)模型，使其适配17种最常用的非洲语言及其他3种在非洲大陆广泛使用的高资源语言，在NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性，且需要的磁盘空间明显少于单个语言的自适应微调方法。同时，本文的适配模型还能够改善参数效率微调方法的零-shot跨语言转移能力。

Apr, 2022

Prompt-Tuning在使用多语言语言模型进行跨语言理解方面比Fine-Tuning更好

本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用，使用prompt-tuning进行多语言NLU任务（包括句子分类、序列标注和问题解答）中的跨语言评估，并与传统的微调方法进行了比较。结果表明，prompt-tuning在跨数据集跨语言传递方面比微调表现更好，而且只需调整0.1%到0.3%的参数。此外，分析表明，prompt tuning可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。

Oct, 2022

多任务微调实现跨语言通用化

研究发现多任务finetuning可以帮助大型多语言模型成功推广至非英语任务中，并且使用机器翻译英文为前缀可以获得更好的性能，最终实现零-shot的结果。

Nov, 2022

多语言大型语言模型还不能切换语言

本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示，虽然这些模型在使用零 / 少量提示时在某些任务中表现出色，但与较小的微调模型相比，它们的性能仍然有所不适。因此，研究者认为未来需要进一步研究来完全弥合这一差距。

May, 2023

基于提示的微调总是比基本微调更好吗？来自于跨语言理解的洞见

本文提出 ProFiT 管道，研究 Prompt-Based Finetuning 的跨语言能力，发现在语言理解中 Prompt-Based Finetuning 的效果和适用性优于 Vanilla Finetuning，且在少样本场景下表现出更大的优势。

Jul, 2023

将以英语为中心的LLMs转变为多语种模型：需要多少语言能力？

通过与只使用英文进行微调的模型相比较，研究发现只使用三种语言进行多语种微调可以显著提高模型在生成式任务上的跨语言转移能力，而在高度结构化的任务上影响较小。

Dec, 2023

仅需一点多语言知识的多语言教学优化

通过研究多语言指令调整多语言大型语言模型的效果，我们发现跨语言转移以及将多语言示例用于指令调整对多语言指令跟随具有显著的改进作用。

Jan, 2024

MAPLE: 多语言大语言模型参数高效微调的评估

通过参数高效微调能够提高大语言模型的性能，而无需大量的资源和计算。对多语言评估的先前研究表明，英语和其他语言在性能上存在很大差距。此外，开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调，以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外，我们还在低秩适应的等级和量化值上进行了实验，以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距，但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能，但在高资源语言上性能可能会下降。

Jan, 2024

大型语言模型的指令调优中的零-shot跨语言转移

在多语种环境下，我们对指令调优进行了系统研究，发现跨语言转移成功的关键在于超参数调整和足够的训练数据，虽然英文训练的大型语言模型能够生成其他语言的正确、全面和有帮助的回答，但其可信度较低且可能偶尔出现流畅性错误。

Feb, 2024