主动少样本微调

Feb, 2024

Active Few-Shot Fine-Tuning

Jonas Hübotter, Bhavya Sukhija, Lenart Treven, Yarden As, Andreas Krause

TL;DR我们研究了大型神经网络在下游任务中的主动少样本微调问题。我们证明了少样本微调是传统主动学习、转导式主动学习的一种泛化，并提出了信息导向的转导学习（ITL）方法，该方法通过适应性采样来最大化对指定下游任务的信息获取。在一般正则性假设下，我们证明了 ITL 收敛于可从可访问数据中获得的最小不确定性。据我们所知，我们是第一个推导出这种泛化界限的研究者，这对于主动学习可能具有独立的利益。我们将 ITL 应用于大型神经网络的少样本微调，并展示 ITL 相比现有技术取得了显著改进。

Abstract

We study the active few-shot fine-tuning of large neural networks to downstream tasks. We show that few-shot fine-tuning is an instance of a generalization of classical →

few-shot fine-tuning active learning transductive learning information-based transductive learning generalization bounds

发现论文，激发创造

基于信息的迁移式主动学习

我们将主动学习推广到应对真实世界中的情况，其中采样被限制在域的可访问区域内，而预测目标可能位于该区域之外。为此，我们提出了 ITL，即信息驱动的转导学习，一种自适应采样的方法，旨在最大限度地提高对指定预测目标的信息获取。在普遍的规则性假设下，我们证明 ITL 会一致地收敛到可从可访问数据中获得的最小不确定性。我们在两个关键应用中展示了 ITL 的应用：大型神经网络的少样本微调和安全贝叶斯优化，ITL 在这两种情况下明显优于现有技术。

Feb, 2024

使用 FASL 进行主动式少样本学习

本文介绍了一种新型迭代式快速文本分类模型训练平台 FASL，将 few-shot learning 和 active learning 两种方法相结合，探究了哪种主动学习方法在 few-shot setup 中的效果最佳，还开发了一个模型来预测何时停止标注。

Apr, 2022

重新审视调整微调策略以用于少样本学习

该研究证明，在 mini-ImageNet 数据集中，fine-tuning 方法在 1-shot 任务中比常见的 few-shot learning 算法具有更高的准确性，在 5-shot 任务中准确率几乎与最先进的算法相同，同时展示了在高分辨率单领域和跨领域任务中，该方法比常见 few-shot learning 算法具有更高的准确性。

Oct, 2019

少样本参数高效微调优于上下文学习且更为经济

通过比较 Few-shot in-context learning 和 Parameter-efficient fine-tuning 的方法，我们证明 PEFT 具有更好的精度和极低的计算成本。我们提出了一种名为 (IA)$^3$ 的新的 PEFT 方法，并提出了一个基于 T0 模型的简单配方，称为 T-Few，在没有任务特定调整或修改的情况下可以应用于新任务。我们在 RAF 基准测试中验证了 T-Few 的有效性，首次达到了超人类表现，并超越了现有技术的 6％。

May, 2022

对大型语言模型进行少样本多语言 NLU 分析与适应：如今已经达到目标了吗？

三种常用方法，即监督微调、监督指令微调和上下文学习，是少样本学习的三种替代方法。本文对这三种方法进行了广泛而系统的比较，测试了六种高低资源语言、三种不同的 NLU 任务以及各种语言和领域设置。观察结果显示，监督指令微调在性能和资源需求方面具有最佳平衡性。此外，本文还分析了预训练 LLM 的目标语言适应性，并发现标准适应方法能在表面上提高目标语言生成能力，但经 ICL 引发的语言理解并未改善且受限，尤其是对于低资源语言而言，得分较低。

Mar, 2024

神经机器翻译模型可以学习成为少样本学习器

大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力，本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习，在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力，模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理，并在翻译质量和即时适应率方面优于现有技术基线，也就是在展示一次示例后重新生成特定术语的能力。

Sep, 2023

传导式少样本学习的现实评估

该研究探讨了在 few-shot 任务的查询集中引入任意类别分布（即类别不平衡）的影响，进一步提出一种基于 α-divergence 的损失函数，有效地处理了类分布变化，大幅提高了性能。

Apr, 2022

大型语言模型中主动半监督推理的实验设计

提出了一种自适应提示设计的框架，通过选择给定推理查询的少样本示例来设计大型语言模型（LLM）的提示，并使用两种算法 GO 和 SAL 在 LLM 提示的推理时间优于其他方法。

Apr, 2024

大型视觉语言模型的少样本自适应研究

通过引入适应真实场景需求的新方法，我们综合评估了一个广泛的数据集和场景，发现其在实践中始终优于现有技术，同时作为更高效的替代方案。

Dec, 2023

少样本学习的传导信息最大化

本研究提出了一种基于 Transductive Infomation Maximization 方法的 few-shot learning，通过优化查询特征和标签预测之间的信息熵，并结合支持集的监督损失，同时提出了一种新的交替方向求解器来加速迭代收敛，从而提高准确率。在多个数据集和网络上的实验表明，TIM 比现有方法表现更好，并且可以与任何基础培训特征提取器配合使用。

Aug, 2020