当部分大于总和：个别 LLM 组件能超越完整模型

Jun, 2024

当部分大于总和：个别 LLM 组件能超越完整模型

When Parts are Greater Than Sums: Individual LLM Components Can Outperform Full Models

Ting-Yun Chang, Jesse Thomason, Robin Jia

TL;DR通过将大型语言模型的输出分解为注意力头和 MLP（组件）的个体贡献，本文研究了上下文学习（ICL）。通过观察好表现的组件（即使整体模型表现不佳，它们在分类任务上也表现良好）、表现较差的组件（比随机预测差得多）和标签偏倚组件（总是预测相同的标签），我们发现组件准确性在不同的演示集和提示模板扰动下是相关的，即使整体模型的准确性差异很大。基于我们的发现，我们提出了组件重新加权的方法，该方法通过学习从少量标记示例中线性重缩放组件激活。在给定 24 个标记示例的情况下，我们的方法在 Llama-2-7B 上的 8 个任务上相对于 24-shot ICL 平均提高了 6.0％的准确性。总体而言，本文通过研究模型内部细节，丰富了我们对 ICL 的理解，并提供了一种实用的改进方法。

Abstract

This paper studies in-context learning (ICL) by decomposing the output of large language models into the individual contributions of attention heads and →

in-context learning attention heads mlps component reweighting model internals

发现论文，激发创造

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

通过双向对齐改善上下文学习

大型语言模型通过在上下文中学习（ICL）在许多任务上展示了令人印象深刻的少量样本泛化能力。本研究提出了双向对齐（BiAlign）方法，旨在充分利用模型对 ICL 示例的偏好，提高较小模型的 ICL 能力。通过与大型模型的输入偏好对齐，同时对齐令牌级别的输出分布，BiAlign 在语言理解、推理和编码等各种任务中超过了现有基准。

Dec, 2023

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

小型模型是大型语言模型有价值的插件

本文提出了 Super In-Context Learning (SuperICL) 算法作为一种有效调整大规模监督数据的方式，尤其适用于难以调整和调试的大型语言模型，并展示了其在多语言性和解释性等方面的优越性。

May, 2023

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

大型语言模型中的上下文学习：基于神经科学的表示分析

大型语言模型通过背景学习在任务导向的例子中取得了显著的性能提升。本文研究了背景学习对语言模型嵌入和注意力表示的影响，以及这些变化如何对行为改进起到中介作用。通过神经科学启发的技术，我们发现在背景学习后，嵌入和注意力表示的变化与行为性能的改善之间存在有意义的相关性，这为对 LLM 行为的潜在表示进行细致理解提供了有价值的工具和见解。

Sep, 2023

MT 中 LLM 的上下文学习能力的实证分析

探讨了大型语言模型在上下文学习中的能力，并研究了上下文演示的不同方面对机器翻译任务的影响。观察到不同模型家族对扰动示例呈现不同的行为，表明上下文学习的鲁棒性可能受到多种因素的影响。需要进一步研究来全面了解这些因素。

Jan, 2024

背景下的学习表现具有普适性，但并非始终稳定：以语法为例

在本研究中，我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性，并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现，相较于模型大小，模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时，我们还发现，在代码上进行预训练的模型更好地推广，并在更大程度上受到思维链提示的益处。

Nov, 2023

探究上下文学习行为：与监督学习的比较

大型语言模型（LLMs）在上下文学习（ICL）方面展示了显着的能力，在没有明确预训练的情况下，仅通过少量的训练示例学习新任务。然而，尽管 LLMs 获得了成功，对于 ICL 如何从给定的提示中学习知识却知之甚少。在本文中，为了对 ICL 的学习行为有所了解，我们通过 ICL 和监督学习 (SL) 分别使用相同的演示示例训练相同的 LLMs，并研究它们在一系列分类任务中在标签扰动（即嘈杂标签和标签不平衡）下的表现。通过广泛的实验证明，我们首先发现黄金标签对下游上下文性能有显著影响，尤其是对于大型语言模型；然而，对于所有模型大小，不平衡标签对 ICL 的影响较小。其次，通过与 SL 进行比较，我们实证表明 ICL 对标签扰动的敏感性较低，并且随着模型大小的增加，ICL 逐渐获得与 SL 相当的性能。

Jul, 2023