多任务微调实现跨语言通用化

Nov, 2022

Crosslingual Generalization through Multitask Finetuning

Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman...

TL;DR研究发现多任务 finetuning 可以帮助大型多语言模型成功推广至非英语任务中，并且使用机器翻译英文为前缀可以获得更好的性能，最终实现零 - shot 的结果。

Abstract

multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and mT5 model families to produce f

multitask prompted finetuning pretrained multilingual language models task generalization zero-shot results machine-translated prompts

发现论文，激发创造

多任务提示训练实现零样例任务泛化

通过将广泛多样的监督数据集转换为易读提示集合的方式，使用预先训练的编码器 - 解码器模型进行多任务学习可以直接导致强大的零 - shot 表现，该方法能够在多个标准数据集上表现出比同类模型大多数情况下强 16 倍的性能，并在 BIG-bench 基准测试中的某些任务上表现出比同类型模型强 6 倍的性能。

Oct, 2021

BLOOM+1: BLOOM 对零 - shot 提示增加语言支持

该研究旨在提高 BLOOM 模型在未见过语言上的度量表现。研究发现，通过进行语言适应性策略来提高它的零样本度量表现是有效的，快速微调适配器比继续预训练更有效，语言度量表现主要取决于适应数据的大小。同时，通过将新语言添加到多任务微调混合中可以有效地教授 BLOOMZ 模型一种新语言。

Dec, 2022

基于提示的微调总是比基本微调更好吗？来自于跨语言理解的洞见

本文提出 ProFiT 管道，研究 Prompt-Based Finetuning 的跨语言能力，发现在语言理解中 Prompt-Based Finetuning 的效果和适用性优于 Vanilla Finetuning，且在少样本场景下表现出更大的优势。

Jul, 2023

Prompt-Tuning 在使用多语言语言模型进行跨语言理解方面比 Fine-Tuning 更好

本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用，使用 prompt-tuning 进行多语言 NLU 任务（包括句子分类、序列标注和问题解答）中的跨语言评估，并与传统的微调方法进行了比较。结果表明，prompt-tuning 在跨数据集跨语言传递方面比微调表现更好，而且只需调整 0.1% 到 0.3% 的参数。此外，分析表明，prompt tuning 可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。

Oct, 2022

跨语言转移开放域对话生成中减轻灾难性遗忘的提示学习

本文探讨了如何在有限数据的情况下，使用少量样本跨语言迁移学习和多任务学习来进行开放域对话生成，同时发现了这两种方法在实验中的灾难性遗忘问题，并提出了一种简单有效的提示学习方法，以应对这一问题。实验结果表明，该方法在六种语言中均表现出了较好的效果。

May, 2023

通过多语言提示翻译进行自然语言推理的跨语言迁移

基于多语言预训练模型，通过提示学习的跨语言转移已显示出有希望的有效性，其中在低资源情景中，从源语言到目标语言的软提示转移到下游任务中。为了有效地转移软提示，我们提出了一个新颖的框架 —— 多语言提示翻译器（MPT），通过引入多语言提示翻译器来适当处理嵌入在提示中的重要知识，同时保留任务知识。在 XNLI 的少样本设置中，MPT 表现出了比基线方法更突出的改进，当转移到与源语言相当不同的语言时，MPT 比普通提示更为突出。

Mar, 2024

Polyglot Prompt: 多语种多任务 PromptTraining

本文旨在为多语言学习提供潜在的架构改进，通过开发一种名为 Polyglot Prompting 的学习框架，利用提示方法为不同的语言和任务学习一个统一的语义空间进行多语言多任务基于提示的学习，以实现跨语言的互助和更全面的实验评估，开创了未来多语言研究的新方向。

Apr, 2022

多任务学习用于多语言模型零 - shot 性能预测

本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测，并将其视为多任务学习问题，从而建立准确的预测模型。我们的方法还同时进行了特征选择，识别出对多个任务的零样本表现具有影响的共同特征。

May, 2022

预训练的多语言语言模型在零差生成中的实证研究

通过在一个语言上对多语言预训练语言模型（mPLM）进行微调，再在其他语言上使用它进行预测，零样本跨语言生成通常会出现使用错误语言生成的问题，本研究测试了替代的 mPLMs（如 mBART 和 NLLB），考虑到全微调和适配器参数高效微调，并发现带适配器的 mBART 的性能与相同规模的 mT5 相似，NLLB 在某些情况下具备竞争力，还强调了微调中学习率的调整对缓解错误语言生成问题的重要性。

Oct, 2023

多任务提示调整实现参数效率转移学习

我们提出了多任务提示调整（MPT）方法，该方法通过从多个特定于任务的源提示中提取知识来首先学习一个单一可传输的提示，然后学习该共享提示的乘性低秩更新，以高效地将其适应每个下游目标任务。在 23 个自然语言处理数据集上进行的广泛实验表明，我们的方法在某些情况下优于最先进的方法，包括完全微调基线方法，尽管只有 0.035％的特定于任务的参数被调整。

Mar, 2023