模型调整还是提示调整?针对临床概念和关系提取的大型语言模型研究
研究了 prompt learning 对临床应用决策任务的可行性,并与传统的微调方法进行了直接比较。结果部分符合 prompt learning 文献,提示学习能够在可训练参数更少和需要更少的训练数据的情况下与传统微调相匹配或改进,可以作为一种可替代越来越大的预训练语言模型微调的较低计算资源成本,适用于临床环境。
May, 2022
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023
提出了三种新方法:依赖输入的提示调整、固定读者和递归 LM,这些方法广泛改进了当前的固定模型方法。虽然每种方法的计算成本比现有的固定模型方法高,但仍然可以忽略不计,而且这些方法证明了固定模型具有未开发的潜力,而精细调整往往是不必要的。
Apr, 2022
本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用,使用 prompt-tuning 进行多语言 NLU 任务(包括句子分类、序列标注和问题解答)中的跨语言评估,并与传统的微调方法进行了比较。结果表明,prompt-tuning 在跨数据集跨语言传递方面比微调表现更好,而且只需调整 0.1% 到 0.3% 的参数。此外,分析表明,prompt tuning 可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。
Oct, 2022
通过 prompt tuning 机制,使用 backpropagation 学习 soft prompts 以提升 downstream tasks 的性能,其中 soft prompts 可以与多个 labeled examples 相结合,这种方法比 GPT-3 的 few-shot learning 更有效,并且在语言模型规模达到 10 亿以上时,method 的表现与 model tuning 相匹敌,而且具有更好的领域转移鲁棒性。
Apr, 2021
利用软提示学习架构,该研究提出了一种新的方法来引导大型语言模型实现对患者信息的提取,评估了两种类型的语言模型在跨领域应用中的性能,并发现使用解码器模型进行软提示调优的结果更好。GatorTronGPT 在最佳 F1 得分上超过传统的 GatorTron 模型,分别在跨机构环境中提高了 8.9% 和 21.8%,在跨疾病环境中提高了 5.5% 和 14.5%。
Mar, 2024
本文采用提示调参的方法控制大型语言模型的记忆内容的提取率,通过基于 GPT-Neo 家族模型的公共基准测试,展示了我们的攻击和防御策略的有效性,实现了相对于基线的提取率增加和减少,最多可以相对于基线降低 97.7% 的提取率,附加的困惑度增加了 16.9%。
May, 2023
本研究首次探讨了基于生成式口语语言模型 (GSLM) 的提示调整范式用于语音处理任务,实验结果表明,与下游精细调整模型相比,提示调整技术使用的可调参数更少,在语音分类任务中实现了较高性能。
Mar, 2022
在本研究中,我们调查了小语言模型(具有不到 10 亿参数)与 prompt-learning 范例相结合,在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示,在少样本设置下进行基于提示的模型微调时,220M 参数的典型小语言模型 T5-base 可以在有限的标记数据(高达全数据的 15%)上实现约 75% 的准确性,显示了小语言模型与 prompt-learning 的巨大潜力。基于此,我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外,在固定模型的零样本设置中,我们强调了一个关键的观察结果,即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性,但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时,其准确性超过 31%,相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力,强调了主动少样本抽样和集成策略在少样本设置中的好处,并强调了零样本设置中提示工程的重要性。
Sep, 2023
将 LLaMa 适应于 Kinyarwanda、Hausa 和 Luganda 等低资源语言的提示设置是一种计算高效且成本效益的方法,优于翻译和 LAFT,并在所有任务和语言上表现最佳。
Mar, 2024