微调发生在微小的子空间中:探索预训练语言模型固有特定任务子空间
本文提出了一种称为内在提示调整 (IPT) 的分析流程,用于在一个统一的低维自然语言处理任务子空间内进行自然语言处理 (PLM) 的调整,研究结果表明,在 250 维的子空间中只需调整 250 个自由参数,即可表现出高的通用性。
Oct, 2021
本文通过分析基于内在维度的微调现象,提出利用内在维度获取经验和理论直觉来解释当前预训练语言模型微调过程中的现象,然后通过实验证明了常规预训练模型具有极低的内在维度。最后,作者依靠低维任务表示和基于压缩的泛化界限将内在维度与泛化界限连接起来提出其在预训练语言模型中的应用。
Dec, 2020
在稀缺数据情况下,本研究聚焦于大规模语言模型(LLMs)的精细调整,提出了一种基于神经网络子空间的方法,通过在参数空间中联合优化一个模型单纯形来增加 LLMs 的泛化能力。使用 “Parameter Efficient Fine-Tuning”(PEFT)方法来学习连续前缀的整个单纯形,实验证明这种方法与原始方法相兼容,同时在适应 few-shot 学习设置的 GLUE 基准的变种上取得了优于 sota 方法的平均性能提升。
Oct, 2023
该论文提出了一种通过学习区分微调和适应性 PLMs 的方法,使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应,并在对话完成、摘要生成等任务上展示出明显提升。
Jul, 2022
本文提出了一种新颖的方法,通过在预训练语言模型的隐藏表示上操作,通过将自编码器插入到 PLM 的隐藏层之间,将以前层的激活转换为多视图压缩表示,然后输入到上层,以减少过拟合。此方法展示了在各种序列和标记级别的低资源 NLP 任务中的性能改进。
Nov, 2022
本文提出了一种新颖的无微调的自然语言处理模型 Fine-tuning-free strategy,通过使用语言和强任务感知的 teacher signal 进行交互式训练,提高了该模型在多项任务中的泛化性和鲁棒性,并且相对于大型模型如 GPT-3 和 InstructGPT 而言,该模型较小,只有 0.3B 的参数。
May, 2023
本文针对预训练语言模型任务中局部技能优化问题提出一种通用解决方案,该方案可显著提高模型预测精度,并在参数效率和任务相似性方面得到优化。
Feb, 2023
本研究提出了一种新的语言转换微调策略,它在多个转换器层中引入了特定于任务的参数,这些参数是来自单一可训练向量的固定随机投影,使微调具有明显更少的参数,从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。
May, 2023
本研究通过无监督方法分析表示空间中的潜在概念,并考察了预训练模型和微调后模型间的相似性。结论显示:较高层次的潜在空间向任务特定概念演变,而较低层次则保留了预训练模型获得的通用概念;某些概念向输出类别具有极性,并可用于生成对抗性触发器。
Oct, 2022
通过构建语言任务空间,借助相似性探测与梯度差分的微调方法,研究发现大型语言模型更好地泛化到语言任务的总体概念,利用其共享结构。此外,预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点,这可能解释了语言模型缺乏成功的课程策略的原因。
Jun, 2024