跨语言转移开放域对话生成中减轻灾难性遗忘的提示学习
本文研究如何在只有英文标记数据的情况下,在目标语言中执行生成任务,以 summarization 作为案例研究。研究发现了通用的迁移学习方法在这种情况下存在困难,并且展示通过 prompt tuning 等方法可以实现跨语言生成。
May, 2022
基于多语言预训练模型,通过提示学习的跨语言转移已显示出有希望的有效性,其中在低资源情景中,从源语言到目标语言的软提示转移到下游任务中。为了有效地转移软提示,我们提出了一个新颖的框架 —— 多语言提示翻译器(MPT),通过引入多语言提示翻译器来适当处理嵌入在提示中的重要知识,同时保留任务知识。在 XNLI 的少样本设置中,MPT 表现出了比基线方法更突出的改进,当转移到与源语言相当不同的语言时,MPT 比普通提示更为突出。
Mar, 2024
研究发现多任务 finetuning 可以帮助大型多语言模型成功推广至非英语任务中,并且使用机器翻译英文为前缀可以获得更好的性能,最终实现零 - shot 的结果。
Nov, 2022
将 LLaMa 适应于 Kinyarwanda、Hausa 和 Luganda 等低资源语言的提示设置是一种计算高效且成本效益的方法,优于翻译和 LAFT,并在所有任务和语言上表现最佳。
Mar, 2024
比较两种基于适配器方法和参数微调的跨语言迁移策略,评估其在少资源语言中的性能和跨语言知识遗忘情况,并发现中间训练策略在目标语言上表现优于跨语言验证策略。
Sep, 2023
本研究提出了一种名为跨语言思维提示(XLT)的方法,通过激发跨语言和逻辑推理技能,改善了大语言模型的多语言能力,并在与推理、理解和生成有关的 7 个基准测试中进行了全面的评估,实验结果显示 XLT 不仅显著提高了各种多语种任务的性能,而且还显著减少了不同语言中每个任务平均性能和最佳性能之间的差距。
May, 2023
本论文研究在一种包含 51 种语言和分类、序列标记任务的大规模多语言持续学习框架中,灾难性遗忘问题以及最小化此问题的方法,提出了一种学习率调整方法 LR ADJUST,其能有效地保留新信息而不过度覆盖过去的知识,并且该方法在多种持续学习方法中都行之有效。还进一步深入分析了该大规模多语言环境下灾难性遗忘的动态过程。
May, 2023
该研究提出了 Attention-Informed Mixed-Language Training (MLT) 方法,用于跨语种任务定向对话系统的零样本适应。该方法通过利用极少的任务相关平行词对来生成代码交换句子,并利用注意层给出的分数提取源单词,最终实现了显著的零 - shot 适应性能提升。
Nov, 2019
通过大型语言模型,本文提出了改进极低资源的土著语翻译的技术,采用了有限数量的平行翻译示例的数据存储,GPT-3.5 等 LLMs 的内在能力以及词级翻译词典。我们利用 LLMs 和上下文学习技术作为极低资源语言的通用翻译器,基于 LLMs 的语言编译器假设它们可以内化语法结构以实现准确翻译。我们介绍了三种技术:带检索上下文的 KNNPrompting、思维链式提示和来自错误的学习,其中最后一种方法解决了过往错误。评估结果表明,即使有限的文集,当与适当的提示搭配时,LLMs 可以有效地翻译极低资源语言。
Jul, 2024