基于通用表征的微调网络解决未知认知任务

Jun, 2024

基于通用表征的微调网络解决未知认知任务

Fine-tuned network relies on generic representation to solve unseen cognitive task

Dongyan Lin

TL;DR微调预训练语言模型在广泛的任务上展现出有希望的结果，但面对新任务时，它们更依赖于通用的预训练表示还是开发全新的任务特定解决方案？我们在一个与模型相关且来自神经科学文献的情境依赖决策任务上微调了 GPT-2，并将其性能和内部机制与从头开始训练的 GPT-2 版本进行了比较。我们的结果显示，微调模型在较后层次上严重依赖于预训练表示，而从头开始训练的模型则开发了不同、更具任务特定性的机制。这些发现突出了预训练在任务泛化中的优势和限制，并强调了进一步研究语言模型微调的任务特定机制的必要性。

Abstract

fine-tuning pretrained language models has shown promising results on a wide range of tasks, but when encountering a novel task, do they rely more on generic pretrained representation, or develop brand new task-s

fine-tuning pretrained language models task-specific solutions mechanisms task generalization

发现论文，激发创造

微调与提示微调的监督表示：哪种更好地解释了大脑语言表示？

通过比较 prompt-tuning 和 fine-tuning 的表示，在神经解码方面，我们发现对于 10 个自然语言理解任务，prompt-tuning 优于 fine-tuning，表明更符合大脑的调节方法获得的表征与脑部数据更相关。此外，我们发现与其他任务相比，处理细粒度概念意义的任务在解码大脑激活模式方面表现更好，尤其是句法分块任务，这表明在表示语言时，我们的大脑编码了更多细粒度的概念信息而不仅仅是浅层句法信息。

Oct, 2023

揭示了细调的大型语言模型的泛化能力

这篇论文研究了大型语言模型（LLMs）和它们经过微调后的变体之间的差异，尤其关注微调对 LLMs 内在泛化能力的影响。通过在不同任务和数据集上进行广泛的实验，研究发现微调应用于生成任务和分类任务的模型在泛化到不同领域和任务时表现出不同的行为，并且在生成任务的微调中整合上下文学习策略可以增强模型的泛化能力。通过这一系统性研究，旨在为 LLMs 的微调实践做出有价值的贡献。

Mar, 2024

无监督预训练的泛化能力研究

运用一种新的理论框架，研究无监督预训练对细调模型泛化能力的影响，并通过分析两个具体场景的泛化上限，提出了一种新的预训练正则化方法，从而促进了细调模型的泛化能力。

Mar, 2024

使用预训练模型探索具有泛化性通识推理策略

本篇论文研究如何通过三种不同的适应方法来影响模型的泛化和准确性，其中 fine-tuning 虽然能够更好地学习任务的内容和结构，但容易出现过拟合和泛化能力有限的问题，相比较而言，使用类似 prefix-tuning 的替代适应方法能够更好地适应未见过的答案，并且更加鲁棒。

Sep, 2021

使用可适应的任务特定前缀轻松更新通用文本表示

该论文提出了一种基于前缀的方法来学习固定文本表示，该方法可以通过多次前向传递来更新文本表示。实验结果表明，该方法在更新文本表示时可以比多任务训练更省计算资源。

May, 2023

调整还是不调整？将预训练表征适应于不同任务

研究了预训练模型在给定目标任务中的最佳适应方式，着重探讨了 fine-tuning 和 feature extraction 两种常见的适应形式的相对性能，并提出了一组适用于 NLP 应用者的模型调整指南。

Mar, 2019

注入语义依存关系的微调

应用语言模型结构代替任务特定的监督并使用卷积图编码器通过显式引入语义解析提高 NLU 任务的性能。

Dec, 2020

Muppet: 带有预细调的大规模多任务表示

本文提出了预细调（pre-finetuning）的方法，是在语言模型预训练和微调之间增加一个大规模学习阶段，旨在促进学习出更好地适用于许多不同任务的表示。通过大规模的多任务学习，预细调在广泛的任务中显著提高了预训练鉴别器和生成模型的性能，并显著提高了微调的样本效率。

Jan, 2021

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

Grad2Task: 使用梯度表示任务的改进少样本文本分类

本文提出了一种基于条件神经过程的方法，用于 few-shot 文本分类，通过从其他各种丰富注释的任务中迁移学习，利用梯度信息从基础模型中表示每个任务，并训练一个调整网络来调整一个文本分类器，受任务表示的条件约束，实验结果表明，这种方法在多个 few-shot 任务上的表现优于传统的 fine-tuning、序列迁移学习和最先进的元学习方法。

Jan, 2022