结构化提示:将上下文学习扩展到 1,000 个例子
本文提出了一个度量标准,评估了一个固定提示对标签或给定属性的预测偏差,并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示,以提高上下文学习的性能,并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明,我们的方法可以有效提高模型的在上下文学习性能。
Mar, 2023
提出了一个用于上下文学习的更好的架构设计 SAICL(Structured Attention for In-Context Learning),该架构通过将全注意力替换为专为上下文学习设计的结构化注意力机制,并消除个体示范之间的不必要依赖性,同时使模型对示范的排列具有不变性。在元训练框架中评估 SAICL,并显示出与全注意力相当或更好的性能,同时获得最多 3.4 倍的推理加速。SAICL 还始终优于每个示范独立处理的强基线 Fusion-in-Decoder(FiD)。最后,由于其线性特性,我们证明 SAICL 可以轻松扩展到数百个示范,并实现连续的性能增益。
Jul, 2023
在这篇论文中,研究人员提出了一种新的自适应上下文学习 (AICL) 方法,通过预测分类器的 Softmax 后验概率来动态调整在推断中使用的示例数,以提高文本分类任务的性能。
Mar, 2024
通过上下文学习,我们提出了一种基于上下文学习的方法,旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入,并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小,我们发现超过几十亿参数的模型会对语义文本相似度任务的性能造成损害,但最大的模型超过了其他模型,并在迁移任务上取得了新的最先进结果。我们还使用当前的对比学习方法对大型语言模型进行了微调,将包含我们基于提示的方法的 2.7B OPT 模型的性能超过了 4.8B ST5 的性能,在语义文本相似度任务上实现了新的最先进结果。
Jul, 2023
本研究提出了基于高效 Transformer 机制的长程语言模型 EVALM,采用 8k 批处理行的方式进行训练,并可测试长度达到 256k 的上下文,实验结果显示,EVALM 平均精度比现有 PLMs 高 4.1%,而且在上下文学习和指令调整中都能有效地缩放所使用的样例大小。
Feb, 2023
该研究探讨了大型语言模型的上下文学习能力及其理论机制,提出了基于自然语言数据中组合操作的信息理论边界,并从语言学角度验证了模型输出中间步骤的成功经验。研究表明,在缩放参数和数据并提示输出中间步骤时,模型能在多项任务中进行有效的上下文学习,这种学习得到的支持与其输入的组成结构有关。
Mar, 2023
本文提出了一种有效的方法,利用标注数据和语言模型(LM)检索 in-context learning 的提示,训练稠密的检索器并在三个序列到序列任务中发现它明显优于之前的工作和多个基线。
Dec, 2021
本文提出 DynaICL,基于黑盒通用模型的高效提示配方。通过动态分配示例来平衡性能和效率。实验结果表明 DynaICL 在计算资源或所需性能受限时可以实现更好的性能和效率权衡。
May, 2023
大语言模型在解决新任务方面表现出了非凡的能力。本研究在大语言模型的上下文学习性能中探究了输入示例的格式对模型性能的影响,并提出了使用多个模板进行模型预测的模板集成方法,以提高模型性能并减少模板选择的影响。
Jan, 2024