语言模型实现真正的小样本学习
使用少量训练示例和任务说明来训练语言模型对于几乎所有任务都很重要,本文提出在极小数据量情境下调整 LM 可显著降低提示工程需求,使用 0.1% 参数更新的 bias terms 可以实现与标准调整相当甚至更好的准确性。
Jun, 2021
LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比,LM-BFF 组合的技术在低资源环境下具有显著改进,最高可达 30%,平均提高 11%。
Dec, 2020
为了解决深度学习中少样本学习的挑战,我们提出了一个简单而有效的框架,专门设计用于利用文本信息和语言模型,通过学习可调的提示来显式地利用预训练的语言模型的零样本能力,并且直接将视觉特征和文本特征进行推断而无需复杂设计的融合模块,进一步运用自集成和蒸馏来增强这些组件,在四个广泛使用的少样本数据集上进行了大量实验证明我们的简单框架取得了令人印象深刻的结果,特别值得注意的是,在 1-shot 学习任务中,我们的分类准确率平均超过基准方法 3.0%。
Jan, 2024
本文提出了一种理论框架,以解释在零 / 少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于 perplexity 的注释无关模板选择方法,使我们能够提前预测提示性能。
Sep, 2022
本文在多语言和交叉语言设置下,通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。
Jun, 2023
大型语言模型(LLMs)在各种零样本和小样本任务中表现出色,但它们的零样本和小样本设置的成功可能会受到任务污染的影响。本文研究了 LLMs 的零样本和小样本性能如何随时间的推移而变化。利用 GPT-3 系列模型和其他一些最近的开源 LLMs,并控制数据集的难度,我们发现在 LLMs 的训练数据创建日期之前发布的数据集上,LLMs 表现出令人惊讶的优势。这明显表明,对于许多 LLMs 来说,在 LLMs 的训练数据创建日期之前发布的数据集上存在零样本和小样本评估的任务污染。此外,我们利用训练数据检查、任务示例提取和成员推理攻击,揭示了更多关于任务污染的证据。重要的是,我们发现对于没有可能任务污染的分类任务,在零样本和小样本设置下,LLMs 很少显示出与简单多数基准显著差异的改进。
Dec, 2023
在利用预先训练的视觉 - 语言模型进行少样本调整以应对下游任务方面取得显著进展的同时,我们的详细实证研究突出了少样本学习结果在训练样本的精心选择上具有显著的依赖性 —— 这是以前的研究忽视了的一个方面。本研究深入探讨了更有效的少样本训练样本选择策略的制定,与依赖随机抽样不同,以增强现有的少样本提示学习方法的潜力。为了实现这一目标,我们评估了各种主动学习技术(如熵和置信度边界)在少样本训练环境中进行实例选择的有效性。此外,我们引入了两种创新的选择方法 —— 代表性(REPRE)和高斯蒙特卡洛(Montecarlo),旨在为与预训练的视觉 - 语言模型相关的标注主动定位信息丰富的样本。我们的研究结果表明,REPRE 和 Montecarlo 在少样本训练场景中显著优于随机选择和基于主动学习的策略。该研究还强调了这些实例选择方法的模型无关性,为广泛的少样本训练方法提供了灵活的增强。
May, 2024
提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法,该方法用少量标记过的示例和定义的偏见作为指示提供给模型,大型语言模型的检测效果十分准确。
Dec, 2021
本文探讨了通过基于提示的少样本学习在对话任务中的应用,通过对多种大小的语言模型进行测试,提出一种新的无需微调的提示分类器,并结合技能选择器创建了一种称为 Few-Shot Bot 的端到端聊天机器人,只需使用少量对话示例便可以完成知识检索并生成人类般自然的响应。
Oct, 2021
通过部分冻结的简单微调变体和上下文化标签,提出了一种在有限样本大小下超越传统微调方法的方法,从而显著提高了医学图像的语义嵌入区分度,使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。
Dec, 2023