基于结构化注意力的上下文演示规模化

Jul, 2023

基于结构化注意力的上下文演示规模化

Scaling In-Context Demonstrations with Structured Attention

Tianle Cai, Kaixuan Huang, Jason D. Lee, Mengdi Wang

TL;DR提出了一个用于上下文学习的更好的架构设计 SAICL（Structured Attention for In-Context Learning），该架构通过将全注意力替换为专为上下文学习设计的结构化注意力机制，并消除个体示范之间的不必要依赖性，同时使模型对示范的排列具有不变性。在元训练框架中评估 SAICL，并显示出与全注意力相当或更好的性能，同时获得最多 3.4 倍的推理加速。SAICL 还始终优于每个示范独立处理的强基线 Fusion-in-Decoder（FiD）。最后，由于其线性特性，我们证明 SAICL 可以轻松扩展到数百个示范，并实现连续的性能增益。

Abstract

The recent surge of large language models (LLMs) highlights their ability to perform in-context learning, i.e., "learning" to perform a task from a few demonstrations in the context without any parameter updates.

large language models in-context learning architectural design structured attention inference speed-up

发现论文，激发创造

上下文对齐能走多远？探索上下文对齐的现状

通过分析 In-Context Alignment（ICA）的机制和适用性，本研究发现示例部分对提升模型对齐能力至关重要，同时还评估了 ICA 在不同对齐任务中的零 - shot 能力，结果显示相较于参数微调方法，ICA 在基于知识和工具应用任务上表现出更好的性能，然而在多轮对话和按指示执行任务方面仍存在某些局限性。

Jun, 2024

大型语言模型中的上下文学习：基于神经科学的表示分析

大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响，以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术，我们发现在背景学习后，嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性，这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。

Sep, 2023

结构化提示：将上下文学习扩展到 1,000 个例子

通过引入结构化的提示，在线学习中处理更多的实例。

Dec, 2022

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

零样本上下文学习的演示增强

我们提出了一种名为 Demonstration Augmentation for In-context Learning (DAIL) 的方法，通过利用模型之前预测的历史样本作为后续样本的演示，来解决大型语言模型在零 - shot 学习中依赖外部信息并且生成过程耗时的问题，同时在没有任何外部信息的情况下，DAIL 不增加推理成本可以显著提高模型的性能。

Jun, 2024

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

通过影响分析的上下文学习示范选择

通过使用影响函数分析训练样本的影响力，我们提出了一种名为 InfICL 的演示选择方法，用于选择对 In-Context Learning（ICL）有高影响力的训练样本，从而提高 ICL 的泛化性能，并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。

Feb, 2024

基于检索演示的语言模型的上下文学习：一项调查

语言模型特别是预训练大型语言模型，在上下文少例学习方面表现出非凡的能力，能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索，这不仅提高了学习过程的效率和可伸缩性，还能减少手动示例选择中固有的偏差。基于鼓舞人心的结果和对检索式少例学习领域日益增长的研究，我们对该领域的研究进行了广泛的概述回顾，在此调查中，我们讨论并比较了检索模型、检索训练程序和推理算法的不同设计选择。

Jan, 2024

博士 ICL: 演示检索上下文学习

本研究表明，在语义上相似的演示可以提高大型语言模型的性能，这可以通过呈现一些示范来完成，并且可以有效地对大量语言和任务进行泛化，同时，我们还引入了任务特定的演示检索器，以进一步提高性能。

May, 2023

自我生成的上下文学习：利用自回归语言模型作为示范生成器

本文提出自生成上下文学习（SG-ICL）方法，用于生成 pre-trained language model（PLM）自身的演示文稿，以便在上下文学习中减少对外部演示的依赖。在四个不同的文本分类任务上进行实验，并表明 SG-ICL 显著优于零样本学习，一般值约为 0.6 金培训样本。此外，所生成的演示文稿与从训练数据集中随机选出的演示文稿相比，表现更具一致性和低方差。

Jun, 2022