通过上下文学习提高多语言模型的跨语言可迁移性
基于多语言预训练模型,通过提示学习的跨语言转移已显示出有希望的有效性,其中在低资源情景中,从源语言到目标语言的软提示转移到下游任务中。为了有效地转移软提示,我们提出了一个新颖的框架 —— 多语言提示翻译器(MPT),通过引入多语言提示翻译器来适当处理嵌入在提示中的重要知识,同时保留任务知识。在 XNLI 的少样本设置中,MPT 表现出了比基线方法更突出的改进,当转移到与源语言相当不同的语言时,MPT 比普通提示更为突出。
Mar, 2024
利用生成对抗网络和无监督多语言嵌入,结合多源语言训练数据的多语言转移学习方法,在多语言文本分类和序列标记任务中实现 target 语言的显著性能提升。
Oct, 2018
本研究分析了在跨语言文本分类中使用 in-context learning 的问题,并提出了一种称为 Cross-lingual In-context Source-Target Alignment (X-InSTA) 的 prompt 构建策略,该策略在 44 个不同的跨语言数据集上表现出了很好的性能。
May, 2023
通过在分类任务中介绍上下文一次性跨语言转换(IC-XLT),可以通过训练模型学习上下文示例,然后在推断时通过在目标语言中预置一次性上下文演示来适应目标语言,提高评估的 mT5 模型的跨语言能力,超过基于提示的模型在经过微调的零和少样本情景中的表现。此外,当源语言数据有限时,IC-XLT 的微调框架与源语言中具有显著更多训练数据的基于提示的微调具有相当的性能。
Apr, 2024
通过上下文学习,我们提出了一种上下文感知提示方法(CAP),使得大型语言模型能够通过上下文学习生成更准确、连贯、一致的翻译。CAP 结合多级注意力,在当前句子中选择与之最相关的句子作为上下文,从这些句子中生成一个摘要。随后,从数据存储中检索与摘要最相似的句子作为演示,有效地指导大型语言模型生成连贯一致的翻译。我们在各种文档级机器翻译任务中进行了大量的实验,结果表明我们的方法在零代词翻译(ZPT)和文学翻译任务中特别有效。
Jun, 2024
该研究通过实验测量了几种不同的文本生成任务原始模型的表现,对比分析了几种参数有效的适应方法(如提示调整、上下文学习和指导性提示调整),并通过 IPT 探究了这些方法之间的交互作用和优缺点。
Feb, 2023
通过利用跨语种检索增强的上下文学习(CREA-ICL)方法,从高资源语言中提取语义相似的提示,以改善多语言预训练语言模型(MPLMs)在各种任务中的零样本性能,本文研究了大型语言模型在低资源语言中上下文学习(ICL)性能的限制和挑战,并对检索增强的上下文学习在分类和生成任务中的性能动态提供了洞见。
Nov, 2023
本研究提出了一种名为跨语言思维提示(XLT)的方法,通过激发跨语言和逻辑推理技能,改善了大语言模型的多语言能力,并在与推理、理解和生成有关的 7 个基准测试中进行了全面的评估,实验结果显示 XLT 不仅显著提高了各种多语种任务的性能,而且还显著减少了不同语言中每个任务平均性能和最佳性能之间的差距。
May, 2023
本文探讨了在上下文中学习(in-context learning)的概念,将其视为维持与上下文信息相一致的生成任务。通过实验表明,长期一致性可以作为下游翻译任务表现优异的良好指标,并表明在上下文机器翻译可以实现随时自适应(on-the-fly adaptation)的效果。
May, 2023
本文通过比较跨语言转移、翻译方法和无数据训练的三种方法,在法语和德语的临床领域中执行医学命名实体识别,并在医学 NER 测试集上进行了广泛实验,表明翻译方法可以实现与跨语言转移相似的性能,但需要更加认真地设计。
Jun, 2023