Muppet: 带有预细调的大规模多任务表示

Jan, 2021

Muppet: 带有预细调的大规模多任务表示

Muppet: Massive Multi-task Representations with Pre-Finetuning

Armen Aghajanyan, Anchit Gupta, Akshat Shrivastava, Xilun Chen, Luke Zettlemoyer...

TL;DR本文提出了预细调（pre-finetuning）的方法，是在语言模型预训练和微调之间增加一个大规模学习阶段，旨在促进学习出更好地适用于许多不同任务的表示。通过大规模的多任务学习，预细调在广泛的任务中显著提高了预训练鉴别器和生成模型的性能，并显著提高了微调的样本效率。

Abstract

We propose pre-finetuning, an additional large-scale learning stage between language model pre-training and fine-tuning. pre-finetuning is

pre-finetuning massively multi-task learning language model pretrained discriminators generation models

发现论文，激发创造

预训练表示的双调谐

本文提出 Bi-tuning，一种细调深度学习模型的新方法，能同时利用监督和无监督预训练，并综合使用有标签数据的判别信息和无标签数据的数据结构，相较于现有策略，在精度上有了长足的提升。

Nov, 2020

是否预训练：探究在资源丰富任务中预训练的益处

本文研究预训练自然语言处理模型在下游任务中使用的训练样本数量与性能之间的关系，研究发现，随着训练样本的数量达到百万级别，使用 BERT 预训练模型和从头开始训练的 LSTM 模型之间的准确度差距缩小到不到 1％，暗示随着监督数据规模的增大，MLM 模型可能会达到递减的收益点。

Jun, 2020

可扩展的跨语言预训练和微调技术实现多语言翻译

本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型，并且证明在不失性能的前提下，预训练模型可以扩展到更多语言。此外，作者基于 ML50 数据集表明，多语言微调相较于其他训练方式有显著提升。

Aug, 2020

遮蔽编排：多任务预训练用于多角色对话表示学习

该研究基于各类无监督预训练任务探究对话上下文表示的学习，并通过精细调整的预训练机制，有效整合了外部知识，能够大幅提高对话提取 / 摘要等下游任务的效果。

Feb, 2020

选择哪些高效的中间任务进行预训练？

通过 adapter fine-tuning 方法，有效地和高效地获取并选取 NLP 任务中的中间任务，从而在目标任务上实现更好的效果。

Apr, 2021

面向自然语言处理的预训练表征的高效主动学习

通过在主动学习循环中使用预训练的大型语言模型的表示，然后在获得所需标记数据后，对这些数据进行微调，从而以较低的计算成本实现与将完全微调的模型相似的性能。

Feb, 2024

自然语言处理的预训练 - 微调范式教程

预训练 - 微调范式是一种创新的自然语言处理方法，通过使用大型预训练语言模型，在有限的训练数据下，展现出卓越的效率，尤其适用于社会科学研究。本教程全面介绍了预训练 - 微调范式的基本概念并提供实际应用示例，包括多类别分类和回归。旨在鼓励更广泛地采用该范式，教程为心理学领域的定量研究人员提供了有价值的指南。

Mar, 2024

基于通用表征的微调网络解决未知认知任务

微调预训练语言模型在广泛的任务上展现出有希望的结果，但面对新任务时，它们更依赖于通用的预训练表示还是开发全新的任务特定解决方案？我们在一个与模型相关且来自神经科学文献的情境依赖决策任务上微调了 GPT-2，并将其性能和内部机制与从头开始训练的 GPT-2 版本进行了比较。我们的结果显示，微调模型在较后层次上严重依赖于预训练表示，而从头开始训练的模型则开发了不同、更具任务特定性的机制。这些发现突出了预训练在任务泛化中的优势和限制，并强调了进一步研究语言模型微调的任务特定机制的必要性。

Jun, 2024

用于科学文献理解的预训练多任务对比学习模型

本文提出了一种多任务对比学习框架（SciMult），采用任务感知分化技术和指令调整技术，在多种科学文献的理解任务中优于现有科学语言模型。

May, 2023

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020