生成式校准用于上下文学习
现代自回归语言模型研究了在上下文学习中,如何在广泛数据上通过预测下一个令牌以最小化对数损失,以获得校准答案。通过大量实验,发现当增加模型大小、增加上下文学习示例以及使用指导、对话或强化学习等方法在精心策划的数据集上对模型进行微调时,性能和校准之间存在权衡,并且常用的重新校准技术在校准错误方面的改善有限,因此在期望模型可靠性的设置下,可能需要新的方法。
Dec, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
通过研究大型语言模型,本文提出 Large language models 可以在面对语境示例时模拟核回归算法,并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归,并通过实证研究发现,LLMs 中的注意力和隐藏特征与核回归的行为相匹配,这些为 ICL 领域中观察到的多种现象提供了见解。
May, 2023
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
通过使用新的线性校准技术(LinC),在仅需少量数据样本(如仅五个标记数据样本)的情况下,对于以 in-context learning(ICL)为基础的 GPT 模型进行概率输出校准,从而达到可靠的预测和改善性能,并显著提升 GPT 模型在各种基准数据集上的测试性能,平均改善率高达 21%,某些情况下高达 50%,尤其在资源有限的情况下提升 PEFT 方法的性能,同时具有较低的期望校准误差,并对不同的标签比例、提示模板和演示排列都具有高度的鲁棒性。
Jan, 2024
本文研究了大型语言模型 (Large Language Models, LLMs) 在上下文学习 (In-context Learning, ICL) 方面的能力和稳定性问题,并提出了通过量化数据示例的信息增益 (Information Gain, IG) 来选择具有最大信息增益的样本的方法,同时引入了模板偏差 (template bias) 的校准策略,实验证明该方法能够显著提升三种 LLMs 在六个分类任务上的性能。
Oct, 2023
在本研究中,我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性,并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现,相较于模型大小,模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时,我们还发现,在代码上进行预训练的模型更好地推广,并在更大程度上受到思维链提示的益处。
Nov, 2023
通过对现有校准方法的系统分析,我们提出了一种简单而直观的批量校准(BC)方法,它控制了批量输入的上下文偏差,统一了各种先前的方法,并有效解决了上述问题,这种方法是零 - shot、只有推理过程中存在,且额外成本极低。在少样本设置下,我们进一步扩展了 BC,使其能够从标记数据中学习上下文偏差,并且通过对 PaLM 2-(S, M, L) 和 CLIP 模型的验证,证明了 BC 的有效性,并在 10 多个自然语言理解和图像分类任务中展示了优于以往校准基线的最新表现。
Sep, 2023
本文提出自生成上下文学习(SG-ICL)方法,用于生成 pre-trained language model(PLM)自身的演示文稿,以便在上下文学习中减少对外部演示的依赖。在四个不同的文本分类任务上进行实验,并表明 SG-ICL 显著优于零样本学习,一般值约为 0.6 金培训样本。此外,所生成的演示文稿与从训练数据集中随机选出的演示文稿相比,表现更具一致性和低方差。
Jun, 2022