估计大型语言模型能力的方法(无需标记测试数据)
利用预训练的密集检索模型,我们在有限样本设置中的常见意图分类数据集上,以及特定情况下的细粒度情感分类中,优于微调性能。通过多个实验,我们分析了模型对于上下文示例和不同模型规模的利用情况,并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。
Sep, 2023
通过对三个文本分类任务的广泛实验,我们发现在选择演示示例时,不仅选择语义上相似的演示示例有益,还选择那些有助于解决测试示例周围固有标签模糊性的演示示例。有趣的是,我们发现包括之前被 LLM 错误分类并且与测试示例的决策边界相近的演示示例能够带来最大的性能提升。
Sep, 2023
我们提出了一种简单但有效的方法来将任务上下文化为特定的大语言模型,通过观察给定的大语言模型如何描述目标数据集,聚合大语言模型的开放式推理结果,并最终将聚合的元信息纳入实际任务中,我们展示了这种方法在文本聚类任务中的有效性,并通过上述过程的示例突出了上下文化的重要性。
Jun, 2024
大型语言模型(LLMs)在上下文学习(ICL)方面展示了显着的能力,在没有明确预训练的情况下,仅通过少量的训练示例学习新任务。然而,尽管 LLMs 获得了成功,对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中,为了对 ICL 的学习行为有所了解,我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs,并研究它们在一系列分类任务中在标签扰动(即嘈杂标签和标签不平衡)下的表现。通过广泛的实验证明,我们首先发现黄金标签对下游上下文性能有显著影响,尤其是对于大型语言模型;然而,对于所有模型大小,不平衡标签对 ICL 的影响较小。其次,通过与 SL 进行比较,我们实证表明 ICL 对标签扰动的敏感性较低,并且随着模型大小的增加,ICL 逐渐获得与 SL 相当的性能。
Jul, 2023
该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务,并设计了一个跨任务提示设置,并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升,同时展示了模型激活相似性与跨任务示例效果之间的强相关性。
May, 2024
通过理论和实证研究,我们首次确定了上下文学习中的标签偏移现象,并提出了一种生成校准方法,通过调整标签边际分布来校准上下文预测分布,实验证明该方法在文本分类任务中显著且一致地优于其他校准方法,同时对于不同的提示配置也表现稳定。
Oct, 2023
探讨了大型语言模型在上下文学习中的能力,并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为,表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。
Jan, 2024
本文通过一系列来自常见文本分类任务的实验,实证地探索了解释大型语言模型(LLMs)在上下文中学习的三种假设,证伪了前两种假设,并提供了支持最后一种假设的证据。结果表明,LLMs 能够通过组合在预训练期间学习的任务来上下文中学习一个新任务。
Jun, 2024
基于大型语言模型的代码生成中,我们提出了一种名为 LAIL 的新型学习选择方法,通过考虑给定需求和示例时生成真实程序的概率来估计候选示例,并通过概率反馈对候选示例进行标记,使用对比学习目标训练一个有效的检索器,从而提高了代码生成的性能。在 CodeGen 和 GPT-3.5 方面,LAIL 在三个代表性数据集上分别比基准线提高了 11.58%、6.89%、5.07%和 4.38%、2.85%、2.74%的 Pass@1 指标。
Oct, 2023