主动少样本微调
我们将主动学习推广到应对真实世界中的情况,其中采样被限制在域的可访问区域内,而预测目标可能位于该区域之外。为此,我们提出了 ITL,即信息驱动的转导学习,一种自适应采样的方法,旨在最大限度地提高对指定预测目标的信息获取。在普遍的规则性假设下,我们证明 ITL 会一致地收敛到可从可访问数据中获得的最小不确定性。我们在两个关键应用中展示了 ITL 的应用:大型神经网络的少样本微调和安全贝叶斯优化,ITL 在这两种情况下明显优于现有技术。
Feb, 2024
本文介绍了一种新型迭代式快速文本分类模型训练平台 FASL,将 few-shot learning 和 active learning 两种方法相结合,探究了哪种主动学习方法在 few-shot setup 中的效果最佳,还开发了一个模型来预测何时停止标注。
Apr, 2022
该研究证明,在 mini-ImageNet 数据集中,fine-tuning 方法在 1-shot 任务中比常见的 few-shot learning 算法具有更高的准确性,在 5-shot 任务中准确率几乎与最先进的算法相同,同时展示了在高分辨率单领域和跨领域任务中,该方法比常见 few-shot learning 算法具有更高的准确性。
Oct, 2019
通过比较 Few-shot in-context learning 和 Parameter-efficient fine-tuning 的方法,我们证明 PEFT 具有更好的精度和极低的计算成本。我们提出了一种名为 (IA)$^3$ 的新的 PEFT 方法,并提出了一个基于 T0 模型的简单配方,称为 T-Few,在没有任务特定调整或修改的情况下可以应用于新任务。我们在 RAF 基准测试中验证了 T-Few 的有效性,首次达到了超人类表现,并超越了现有技术的 6%。
May, 2022
三种常用方法,即监督微调、监督指令微调和上下文学习,是少样本学习的三种替代方法。本文对这三种方法进行了广泛而系统的比较,测试了六种高低资源语言、三种不同的 NLU 任务以及各种语言和领域设置。观察结果显示,监督指令微调在性能和资源需求方面具有最佳平衡性。此外,本文还分析了预训练 LLM 的目标语言适应性,并发现标准适应方法能在表面上提高目标语言生成能力,但经 ICL 引发的语言理解并未改善且受限,尤其是对于低资源语言而言,得分较低。
Mar, 2024
大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力,本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习,在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力,模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理,并在翻译质量和即时适应率方面优于现有技术基线,也就是在展示一次示例后重新生成特定术语的能力。
Sep, 2023
该研究探讨了在 few-shot 任务的查询集中引入任意类别分布(即类别不平衡)的影响,进一步提出一种基于 α-divergence 的损失函数,有效地处理了类分布变化,大幅提高了性能。
Apr, 2022
提出了一种自适应提示设计的框架,通过选择给定推理查询的少样本示例来设计大型语言模型(LLM)的提示,并使用两种算法 GO 和 SAL 在 LLM 提示的推理时间优于其他方法。
Apr, 2024
本研究提出了一种基于 Transductive Infomation Maximization 方法的 few-shot learning,通过优化查询特征和标签预测之间的信息熵,并结合支持集的监督损失,同时提出了一种新的交替方向求解器来加速迭代收敛,从而提高准确率。在多个数据集和网络上的实验表明,TIM 比现有方法表现更好,并且可以与任何基础培训特征提取器配合使用。
Aug, 2020