小型模型是大型语言模型有价值的插件
大型语言模型(LLM)通过上下文学习(ICL)的关键能力成为 AI 的强大工具,本研究探讨了不同规模的模型在 ILC 行为上的不同性质,并在两个设定下分析了变压器的注意力机制与 ICL 的关系。
May, 2024
大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力,本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习,在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力,模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理,并在翻译质量和即时适应率方面优于现有技术基线,也就是在展示一次示例后重新生成特定术语的能力。
Sep, 2023
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
我们提出了一种称为 SLEICL(Strong LLM Enhanced ICL)的方法,通过从强语言模型学习例子并将其总结和转移给弱语言模型来确保 ICL 的稳定性和有效性,从而使弱语言模型在零样本或少样本情况下在多个数据集上取得了持续的提升。
Jan, 2024
在这篇论文中,研究人员提出了一种新的自适应上下文学习 (AICL) 方法,通过预测分类器的 Softmax 后验概率来动态调整在推断中使用的示例数,以提高文本分类任务的性能。
Mar, 2024
在本研究中,我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性,并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现,相较于模型大小,模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时,我们还发现,在代码上进行预训练的模型更好地推广,并在更大程度上受到思维链提示的益处。
Nov, 2023
通过注入事实知识、选择高相关性示例,并基于先前知识校准预测结果,提出了一种称为 KICT 的知识内外训练框架,以进一步改善 In-Context Learning (ICL) 的性能。在多个文本分类和问题回答任务上的实验证明,KICT 明显优于强基线模型,分别在文本分类和问题回答任务上的准确性提高了超过 13%和 7%。
Sep, 2023
通过并行处理不同批次的样本,依据语义相似性在上下文学习中同时使用所有示范样本,并通过加权平均语义目标选择最合适的标记,从而提高 ICL 的有效性。
Mar, 2024
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
三种常用方法,即监督微调、监督指令微调和上下文学习,是少样本学习的三种替代方法。本文对这三种方法进行了广泛而系统的比较,测试了六种高低资源语言、三种不同的 NLU 任务以及各种语言和领域设置。观察结果显示,监督指令微调在性能和资源需求方面具有最佳平衡性。此外,本文还分析了预训练 LLM 的目标语言适应性,并发现标准适应方法能在表面上提高目标语言生成能力,但经 ICL 引发的语言理解并未改善且受限,尤其是对于低资源语言而言,得分较低。
Mar, 2024