多语言模型的离散和软提示
将 LLaMa 适应于 Kinyarwanda、Hausa 和 Luganda 等低资源语言的提示设置是一种计算高效且成本效益的方法,优于翻译和 LAFT,并在所有任务和语言上表现最佳。
Mar, 2024
基于多语言预训练模型,通过提示学习的跨语言转移已显示出有希望的有效性,其中在低资源情景中,从源语言到目标语言的软提示转移到下游任务中。为了有效地转移软提示,我们提出了一个新颖的框架 —— 多语言提示翻译器(MPT),通过引入多语言提示翻译器来适当处理嵌入在提示中的重要知识,同时保留任务知识。在 XNLI 的少样本设置中,MPT 表现出了比基线方法更突出的改进,当转移到与源语言相当不同的语言时,MPT 比普通提示更为突出。
Mar, 2024
本文提出 ProFiT 管道,研究 Prompt-Based Finetuning 的跨语言能力,发现在语言理解中 Prompt-Based Finetuning 的效果和适用性优于 Vanilla Finetuning,且在少样本场景下表现出更大的优势。
Jul, 2023
本文提出了一种使用 UniPrompt 的新型模型,其使用单一的多语言 prompt 并且具有语言不可知性,可以显著提高在零样本跨语言设置下的转移性能。
Feb, 2022
本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用,使用 prompt-tuning 进行多语言 NLU 任务(包括句子分类、序列标注和问题解答)中的跨语言评估,并与传统的微调方法进行了比较。结果表明,prompt-tuning 在跨数据集跨语言传递方面比微调表现更好,而且只需调整 0.1% 到 0.3% 的参数。此外,分析表明,prompt tuning 可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。
Oct, 2022
该论文研究了利用自动诱导的提示从语言模型中提取信息的能力是否可以被直接应用于探索其他语言模型。在证实了自动提示优于手动和半手动提示的插槽填充任务后,我们证明了在一个模型上学习并在另一个模型上进行测试的 AutoPrompt 提示效果下降。我们介绍了一种混合语言模型来诱导提示的方法,以获得可以在多个模型之间广义的提示。我们对诱导提示进行了全面分析,发现更通用的提示包括更大比例的现有英语单词,其组成部分信息的分布更少依赖顺序并且更加均匀。我们的研究提供了初步证据表明可能生成可诱导一次并与许多不同模型一起使用的离散提示,并提供关于表征此类提示的属性的见解。
Feb, 2023
CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架,它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。
Apr, 2022
本文提出一种基于 SoftMV 框架与 Multilingual Verbalizer 的跨语种自然语言推理方法,通过生成软提示的填空式问题和使用双语词典,将原问题与扩增多语言问题的表示对齐到相同的语义空间中,并通过一致性正则化实现在 XNLI 数据集上的最新性能,特别是在少量样本和全量样本跨语种转移的情况下获得显着优于以前方法的结果。
May, 2023
研究了 prompt learning 对临床应用决策任务的可行性,并与传统的微调方法进行了直接比较。结果部分符合 prompt learning 文献,提示学习能够在可训练参数更少和需要更少的训练数据的情况下与传统微调相匹配或改进,可以作为一种可替代越来越大的预训练语言模型微调的较低计算资源成本,适用于临床环境。
May, 2022