面向随时调优的持续预训练语言模型与超网络提示

Oct, 2023

面向随时调优的持续预训练语言模型与超网络提示

Towards Anytime Fine-tuning: Continually Pre-trained Language Models with Hypernetwork Prompt

Gangwei Jiang, Caigao Jiang, Siqiao Xue, James Y. Zhang, Jun Zhou...

TL;DR通过超网络生成领域特定的提示，以解决一直持续预训练方法在新领域性能下降的问题，并促进跨领域的知识迁移。该方法在两个真实数据集上实现了 3.57% 和 3.4% 的改进，证明其有效性。

Abstract

continual pre-training has been urgent for adapting a pre-trained model to a multitude of domains and tasks in the fast-evolving world. In practice, a continually pre-trained model is expected to demonstrate not only greater capacity when fine-tuned on pre-trained domains but also a no

continual pre-training fine-tuning prompt-guided hypernetwork knowledge transfer

发现论文，激发创造

构建领域特定的大型语言模型的高效连续预训练

本研究探讨了持续预训练作为开发面向特定领域的大型语言模型的一种替代策略，引入了通过领域自适应持续预训练在金融领域上开发的 FinPythia-6.9B，FinPythia 通过金融任务中持续预训练实现了稳定的改进，并进一步探索了简单而有效的数据选择策略，相较于常规的持续预训练方法，我们的数据选择策略在使用仅 10% 的语料库大小和成本时表现更好，在开放领域的标准任务上没有任何退化。本研究提出了一种以成本效益的方式构建面向特定领域的大型语言模型的替代解决方案。

Nov, 2023

大型语言模型中的连续预训练探索：洞见与影响

这篇论文研究了大型语言模型（LLMs）中不断学习（CL）领域的发展，重点是开发高效和可持续经验的训练策略。通过不断适应域预训练，我们的研究评估了 LLMs 在不同数据环境中的适应性和能力，并引入了一个新的基准来衡量这种适应能力，揭示了关于知识转移和模型大小的若干关键见解。

Feb, 2024

持续预训练以提高零样本和少样本提示能力

本研究探讨了在语言模型提示方法中继续预训练阶段是否能够提高零 - shot 以及少量样本情况下语言模型的性能，并通过大规模实验表明使用多任务学习的实时递归预训练策略可将零 - shot 及几轮试验下的效果提高至 31% 相对性能，然而使用元学习方法的继续预训练阶段的性能不佳。我们提出了针对不同应用的具体推荐，以优化语言模型的性能。

Oct, 2022

语言模型的持续学习

本研究提出了一种新的方法，使用一系列未标记的领域语料库来连续培训语言模型，从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制，它直接控制语言模型的更新，同时提供了一个新的代理来保留原始 LM 中的通用知识。实证评估证明了所提方法的有效性。

Feb, 2023

对话状态跟踪的继续提示调整

本文提出了一种连续的提示调整参数有效的框架，可避免对旧任务的遗忘并在任务之间实现知识转移，验证实验表明该方法在对话状态跟踪领域中具有有效性和高效性。

Mar, 2022

不要停止预训练？使基于提示的微调更加强大的学习者

本研究探讨了传统的预训练语言模型在特定任务下加以微调是否能提高性能的假设，并提出了基于提示的持续预训练方法 (PCP)。实验证明，相较于传统方法，PCP 在 21 个基准测试中表现更好。

May, 2023

通过减小稳定性差距来实现高效的持续性预训练

持续预训练是适应大型语言模型（LLM）到新领域的主要方法之一，研究探讨了在这个过程中 LLM 的行为和性能，提出了三种有效策略来增强 LLM 在固定计算资源下的性能，经实验证实这些策略在医学任务性能和通用任务性能方面均取得了令人满意的成果。

Jun, 2024

BayesPrompt: 通过去偏领域抽象在少样本推断中对大规模预训练语言模型进行提示

通过将已知分布近似为去偏的目标领域的真实分布，并从近似分布中均匀采样一定的代表性特征，生成 PLMs 的最终提示，我们的方法在基准测试中实现了最先进的性能。

Jan, 2024

Prompt-Tuning 在使用多语言语言模型进行跨语言理解方面比 Fine-Tuning 更好

本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用，使用 prompt-tuning 进行多语言 NLU 任务（包括句子分类、序列标注和问题解答）中的跨语言评估，并与传统的微调方法进行了比较。结果表明，prompt-tuning 在跨数据集跨语言传递方面比微调表现更好，而且只需调整 0.1% 到 0.3% 的参数。此外，分析表明，prompt tuning 可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。

Oct, 2022

使用预训练 Transformer 的 S-Prompts 学习：领域增量学习的 Occam 剃刀

本研究提出了 S-Prompting 范式和两种方法，通过独立学习提示，从而高度减少领域增量学习（DIL）中的遗忘程度，实现了深度神经网络在连续学习中一个最典型的场景 -- 领域增量学习（DIL）中的最佳表现。

Jul, 2022