面向任务引导的预训练语言模型解耦调参

ACLMar, 2022

面向任务引导的预训练语言模型解耦调参

Task-guided Disentangled Tuning for Pretrained Language Models

Jiali Zeng, Yufan Jiang, Shuangzhi Wu, Yongjing Yin, Mu Li

TL;DR该研究提出一种名为任务引导分离微调的方法，通过从预训练的语言模型中分离特定任务的信号来增强表示的泛化能力，实验结果表明，该方法在自然语言处理方面表现出更好的效果。

Abstract

pretrained language models (PLMs) trained on large-scale unlabeled corpus are typically fine-tuned on task-specific downstream datasets, which have produced state-of-the-art results on various NLP tasks. However, the data discrepancy issue in domain and scale makes fine-tuning fail to

pretrained language models task-guided disentangled tuning representation disentanglement generalization natural language processing

发现论文，激发创造

针对具有鉴别力的预训练语言模型的提示调节

该论文提出了 DPT 作为针对区分性 PLMs 的 prompt tuning 框架，并将自然语言处理任务转换为区分性语言建模问题。通过全面的文本分类和问答实验表明，与 vanilla fine-tuning 相比，DPT 在全集和低资源环境下都能显著提高性能，并解决了调整大型 PLMs 中的不稳定问题。

May, 2022

通过外部引导对预训练语言模型进行噪声抗干扰微调

使用嘈杂标签，通过引导大型语言模型来提高预训练语言模型（PLM）的微调过程，以区分干净样本和嘈杂样本，并提供嘈杂标签之外的辅助信息，从而增强学习过程。

Nov, 2023

用对比提示调整使预训练语言模型成为端到端的小样本学习模型

CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架，它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。

Apr, 2022

当联邦学习遇到预训练语言模型的参数高效调整方法

本文旨在探讨如何在隐私保护的前提下，同时减少通信开销和本地模型适应成本，在联邦学习范式下提高微调预训练语言模型效率和性能，为此我们引入了多种参数节约的微调方法（PETuning），并提供了适用于各种实验条件的实证研究和联邦微调框架 FedPETuning。

Dec, 2022

使用预训练语言模型进行粗调用于即席文件检索

本研究介绍了一种中间学习阶段 —— 粗调（coarse-tuning）用于信息检索系统中的细调（fine-tuning）。通过在粗调阶段学习查询表示和查询 - 文档关系，旨在减轻细调负担，提高下游信息检索任务的学习效果。通过提出的查询 - 文档对预测（Query-Document Pair Prediction, QDPP）方法进行评估实验，显著改善了四个自适应文档检索数据集中的 MRR 和 / 或 nDCG@5。此外，查询预测任务的结果表明，粗调有助于学习查询表示和查询 - 文档关系。

Mar, 2024

针对视觉语言模型的任务残差调节

本篇论文提出了一种名为 Task Residual Tuning 的新的视觉语言模型的高效调整方法，其中通过保留原有分类器权重的方式，针对目标任务调整一组先独立参数作为原有分类器的残差，以实现可靠的先验知识保存和灵活的任务特定知识探索，并在 11 个基准数据集中显著优于当前的高效转移学习方法。

Nov, 2022

预训练语言模型中数据到文本生成的困难之处是什么？

本文对预训练语言模型和自回归预训练语言模型在 DART 数据集上的 D2T 任务表现进行实证研究，考虑了任务数据量的大小，以及零样本和少样本学习以及模型微调等方式，研究表明需要更多仔细手工策划的数据集来改善基于此的 D2T 生成任务。

May, 2022

预训练语言模型的对比演示调整

本文提出一种新颖的对比演示调整方法，它是可插拔、可扩展和高效的，可用于调整预先训练的语言模型来执行分类任务。实验结果表明，这种方法与先前的方法 LM-BFF 和 P-tuning 相结合可以提高性能。

Apr, 2022

信息引导的正则化用于微调语言模型

传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略，但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响，并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法，名为 guided dropout。通过实证评估表明，相比于标准基线，在数据稀缺的情况下，我们的正则化方法始终能够得到更好的性能。

Jun, 2024

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023