语言模型实现真正的小样本学习
在大规模预训练语言模型上进行fine-tuning可以显著提高模型在 NLP 任务中的任务值线表现,同时还证明了 scaling up 语言模型可以大大改善任务独立的few-shot learning表现,并探讨了GPT-3模型优势和局限性。
May, 2020
LM-BFF提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种NLP任务上的性能。通过与传统的 fine-tuning 方法相比,LM-BFF组合的技术在低资源环境下具有显著改进,最高可达30%,平均提高11%。
Dec, 2020
使用少量训练示例和任务说明来训练语言模型对于几乎所有任务都很重要,本文提出在极小数据量情境下调整 LM 可显著降低提示工程需求,使用 0.1% 参数更新的 bias terms 可以实现与标准调整相当甚至更好的准确性。
Jun, 2021
通过对 GPT 和 T5 模型进行跨语言分类,本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本,且在跨语言预测方面表现显著优于随机预测,并与现有的最先进的跨语言模型具有竞争力。
Sep, 2021
本研究介绍了一种最先进的基于提示的少样本学习器——SFLM,该模型使用自训练技术来对语言模型进行微调,仅依赖于少量未标记的领域内数据,并在句子分类和句子对分类基准任务上优于其他最先进的监督和半监督对手。
Oct, 2021
本文提出了一种理论框架,以解释在零/少样本场景下提示学习的功效,我们进一步假设语言差异可以衡量提示的质量,并且通过基于perplexity的注释无关模板选择方法,使我们能够提前预测提示性能。
Sep, 2022
本文从不同的角度研究PLM的few-shot学习,通过调参后作为生成器合成了大量的新训练样本,使用加权最大似然度量进行训练以鼓励生成器生成分类标签的样本,并使用正则化fine-tuned在小样本和合成样本上取得了比现有few-shot学习方法更好的结果,GLUE基准测试中超过无增加方法5+平均点数和增加方法3+平均点数。
Nov, 2022
大型语言模型(LLMs)在各种零样本和小样本任务中表现出色,但它们的零样本和小样本设置的成功可能会受到任务污染的影响。本文研究了LLMs的零样本和小样本性能如何随时间的推移而变化。利用GPT-3系列模型和其他一些最近的开源LLMs,并控制数据集的难度,我们发现在LLMs的训练数据创建日期之前发布的数据集上,LLMs表现出令人惊讶的优势。这明显表明,对于许多LLMs来说,在LLMs的训练数据创建日期之前发布的数据集上存在零样本和小样本评估的任务污染。此外,我们利用训练数据检查、任务示例提取和成员推理攻击,揭示了更多关于任务污染的证据。重要的是,我们发现对于没有可能任务污染的分类任务,在零样本和小样本设置下,LLMs很少显示出与简单多数基准显著差异的改进。
Dec, 2023
三种常用方法,即监督微调、监督指令微调和上下文学习,是少样本学习的三种替代方法。本文对这三种方法进行了广泛而系统的比较,测试了六种高低资源语言、三种不同的NLU任务以及各种语言和领域设置。观察结果显示,监督指令微调在性能和资源需求方面具有最佳平衡性。此外,本文还分析了预训练LLM的目标语言适应性,并发现标准适应方法能在表面上提高目标语言生成能力,但经ICL引发的语言理解并未改善且受限,尤其是对于低资源语言而言,得分较低。
Mar, 2024
在利用预先训练的视觉-语言模型进行少样本调整以应对下游任务方面取得显著进展的同时,我们的详细实证研究突出了少样本学习结果在训练样本的精心选择上具有显著的依赖性——这是以前的研究忽视了的一个方面。本研究深入探讨了更有效的少样本训练样本选择策略的制定,与依赖随机抽样不同,以增强现有的少样本提示学习方法的潜力。为了实现这一目标,我们评估了各种主动学习技术(如熵和置信度边界)在少样本训练环境中进行实例选择的有效性。此外,我们引入了两种创新的选择方法——代表性(REPRE)和高斯蒙特卡洛(Montecarlo),旨在为与预训练的视觉-语言模型相关的标注主动定位信息丰富的样本。我们的研究结果表明,REPRE和Montecarlo在少样本训练场景中显著优于随机选择和基于主动学习的策略。该研究还强调了这些实例选择方法的模型无关性,为广泛的少样本训练方法提供了灵活的增强。
May, 2024