预训练语言模型在少样本微调中的问题

ACLApr, 2022

预训练语言模型在少样本微调中的问题

Pathologies of Pre-trained Language Models in Few-shot Fine-tuning

Hanjie Chen, Guoqing Zheng, Ahmed Hassan Awadallah, Yangfeng Ji

TL;DR本文旨在解释提高小样本下的预训练语言模型的性能，发现未 fine-tune 的预训练模型表现出强烈的预测偏差，而 fine-tune 可以缓解预测偏差并展现出更好的性能，但研究还在探讨如何平衡预测行为和开发有利于小样本学习的模型评估方法。

Abstract

Although adapting pre-trained language models with few examples has shown promising performance on text classification, there is a lack of understanding of where the performance gain comes from. In this work, we propose to answer this question by interpreting the adaptation behavior us

pre-trained language models few-shot fine-tuning model predictions performance improvement model evaluations

发现论文，激发创造

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

Few-shot Fine-tuning vs. In-context Learning: 公平比较和评估

本文比较了预先训练的语言模型的任务适应的两种替代策略：few-shot fine-tuning 和 in-context learning。通过控制模型、样本数量和参数数量，研究表明 fine-tuned language models 确实可以很好地泛化到 domain 外。虽然两种方法的表现存在巨大变化，并且取决于模型大小和样本数量等属性，说明鲁棒的任务适应仍然是一个挑战。

May, 2023

FILM: 少样本图像分类如何从预训练语言模型中受益？

本文提出了一种基于对比学习的新的 few-shot learning 框架，通过预训练语言模型解决视觉特征与文本嵌入之间的对齐问题，并引入度量模块来实现余弦相似度的泛化，通过双层优化结构中的 MAML 训练模型以提高可迁移性，此外，在多个基准测试上进行了大量实验证明我们方法的有效性。

Jul, 2023

语言模型实现真正的小样本学习

评估少量样本学习模型在没有未使用样本的情况下的表现，发现先前的工作对于 LM prompt 和超参数的选择方式大大低估了预训练语言模型在小样本学习方面的能力。

May, 2021

Few-shot 基于提示微调中避免推断启发式方法

本文研究表明，在句子对分类任务中，虽然预训练语言模型提供了低数据环境下的优势，但基于提示的微调模型仍然存在使用基于词汇重叠的推理启发式的共同缺陷，加入保留预训练权重的正则化可以缓解这种破坏性的微调倾向，并在三个挑战数据集上显示了可预期的改进。

Sep, 2021

预训练语言模型为什么比零 / 少样本学习者更好？

本文提出了一种理论框架，以解释在零 / 少样本场景下提示学习的功效，我们进一步假设语言差异可以衡量提示的质量，并且通过基于 perplexity 的注释无关模板选择方法，使我们能够提前预测提示性能。

Sep, 2022

基于大型语言模型的高效少样本临床任务适应

通过部分冻结的简单微调变体和上下文化标签，提出了一种在有限样本大小下超越传统微调方法的方法，从而显著提高了医学图像的语义嵌入区分度，使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。

Dec, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

利用自然语言监督改进视觉微调

本文通过引入一种基于文本监督的微调方法（TeS），旨在缓解预训练模型中的 bias 问题，并在 11 个下游任务上进行了验证。实验结果表明，该方法能够显著提高微调的效果。

Apr, 2023

为生物医学自然语言处理调整大型神经语言模型

本文系统研究了微生物 NLP 中 fine-tuning 的稳定性，提出了一系列技术来解决这个问题，并通过领域特定词汇和预训练来建立更健壮的模型。

Dec, 2021