大规模语言模型通过使用弱到强的搜索方法进行调整,以增强模型的效果并提高模型的对齐能力。
May, 2024
提出了一种部分线性化技术,用于改善多任务融合,并通过融合精调的任务向量来构建统一的多任务模型,取得了比标准参数高效微调技术更好的性能。
Oct, 2023
本文提供了一个统一框架来探讨 NLP 中参数高效的迁移学习方法,将多种不同的方法重新构建为预训练模型中特定 hidden states 的修改,定义了一组设计维度以表明不同方法的变化方向,如计算修改的函数和应用修改的位置等。通过涵盖机器翻译、文本摘要、语言理解和文本分类基准的全面实证研究,识别了以前方法中的重要设计选择。此外,我们的统一框架使得设计元素可以在不同方法之间进行转移,从而实现了比以前更高效的 fine-tuning 方法。
Oct, 2021
本文提出一种数据无关的知识融合方法,通过在参数空间内合并模型并引导最小化预测差异的权重,将建立在不同训练数据集上的个别模型合并为一个模型,以在所有数据集领域都表现良好并可以推广到域外数据。 在评估设置的一系列电池上,我们发现该方法明显优于 Fisher 加权平均或模型集成等基线,并且我们发现我们的方法是一种有前途的替代多任务学习的方法,可以在不访问训练数据的情况下保留或有时提高个别模型的性能。最后,模型合并比训练多任务模型更高效,因此适用于更广泛的情况。
Dec, 2022
使用弱模型生成的标签对强模型进行微调可以显著提高强模型性能,本文提出了一个理论框架来解释这种弱到强的泛化现象,并通过多种实证评估验证了理论发现。
本文介绍了一种更新基础模型以适应新信息并保留其原始能力的新方法,通过对一小部分参数进行本地化修改,并引入重要性评分机制来仅更新最关键的权重,在多样的持续学习任务中得到了全面评估,表明其能够提高现有的持续学习方法并减少已训练知识的损失。
Aug, 2023
本文提出一种有效的方式,利用单个、大型的预训练模型同时微调多个下游生成任务,以实现内存有效性的提升,同时在五个多样化的自然语言生成任务上的实验结果表明,仅使用每个任务额外的 2-3% 的参数,我们的模型可以维持或甚至提高整个模型的微调性能。
Apr, 2020
本文介绍了一种基于小参数集合的深度神经网络迁移学习和多任务学习的新方法,通过调整网络中的特定组件使其适应不同任务,以达到在多个任务中共享参数并且性能表现良好的目的。
Oct, 2018
通过发现简单易用的可转移攻击可以取得很高的目标转移性能,本文提出了新的针对传输设置的评估方法,并显示了使用 logit loss 方法生成目标通用对抗扰动的有效性。
Dec, 2020
本文探讨了在小语言模型中,模型规模大小,多任务学习,指令调整,fine-tuning 和域内学习等对模型性能影响,其中通用 MTL 和域内 MTL 能够分别提升模型相对 31% 和 37.6% 的效果,并且与先前的研究结果不同,指令调整仅提供了小幅度的 2% 性能改进。
Oct, 2022