基于 SVD 的加权剪枝提升上下文学习性能：理论视角

Jun, 2024

基于 SVD 的加权剪枝提升上下文学习性能：理论视角

Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective

Xinhao Yao, Xiaolin Hu, Shenzhi Yang, Yong Liu

TL;DR基于 Transfomer 的预训练大型语言模型（LLM）展示了令人惊叹的上下文学习能力（ICL）。在本文中，我们展示了基于 SVD 的权重剪枝可以增强 ICL 性能的有趣现象，并且在深层剪枝权重通常导致浅层性能的更稳定的改善。然而，这些发现的基本机制仍然是一个悬而未决的问题。为了揭示这些发现，我们通过展示 ICL 的隐式梯度下降（GD）轨迹，并通过完全的隐式 GD 轨迹给出基于互信息的 ICL 泛化界限进行了深入的理论分析。这有助于我们合理地解释令人惊讶的实验结果。此外，基于所有的实验和理论观察，我们直观地提出了一个用于增强 ICL 推断的简单、压缩模型和无导数的算法。在基准数据集和开源 LLM 上的实验证明了该方法的有效性。

Abstract

pre-trained large language models (LLMs) based on Transformer have demonstrated striking in-context learning (ICL) abilities. With a few demonstration input-label pairs, they can predict the label for an unseen i

pre-trained large language models in-context learning weight pruning implicit gradient descent model-compression

发现论文，激发创造

预训练的 Transformer 是否真的通过梯度下降来学习上下文？

在实际的自然语言环境中，对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异，发现二者在适应语言模型的输出分布上存在不一致的行为。

Oct, 2023

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

用于稀疏检索任务的样本高效上下文学习机制

本文研究了大型语言模型展示的 “上下文学习” 现象，并解释了预训练的 transformer 模型如何在合理的假设下执行上下文学习。我们推出了一种机制，使得 transformer 模型能够正确划分上下文，推断出稀疏线性回归假说，并应用此假说进行预测，在该学习框架中的样本复杂度保证。

May, 2023

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

无梯度结构剪枝与未标记数据

本文提出一种基于无标签数据的梯度无关结构裁剪框架，能够在不降低准确度的情况下，显著地减少预训练模型的计算成本，从而提高大型语言模型的推理效率。

Mar, 2023

背景下的学习表现具有普适性，但并非始终稳定：以语法为例

在本研究中，我们通过对语法敏感性的测试案例来研究通过上下文学习监督的大型语言模型的鲁棒性，并调查模型的预训练语料库组成和监督方法对模型变异性的影响。我们发现，相较于模型大小，模型在这一基本语言现象上的变异性更多地受到预训练语料库组成和监督方法的影响。同时，我们还发现，在代码上进行预训练的模型更好地推广，并在更大程度上受到思维链提示的益处。

Nov, 2023

不是所有演示例子一样有益：重新加权演示例子进行上下文学习

使用掩码自预测分数，对掩码预训练的大型语言模型进行上下文学习（In-Context Learning），并通过优化示例权重以及应用于不同模型位置的两种策略，在 8 个文本分类任务中显著优于常规的上下文学习方法。

Oct, 2023

上下文学习转模型权重的精确转换

在这篇论文中，我们展示了一个算法（ICLCA），通过在线性变换网络中加入偏置项，可以使得上下文学习（ICL）得以明确和持久化。我们在数学上证明了通过 ICL 演示提示的模型与具有额外偏置项的同一模型之间的等价性。我们的方法允许以低成本进行精确转换，而现有方法并不精确且需要昂贵的参数更新。我们通过实验展示了我们方法的有效性，展示了将 ICL 令牌精确地纳入线性变换器中。我们进一步提出了如何适应我们的方法，以实现 ICL 令牌的便宜近似转换，即使在非线性化的常规变换网络中也可以实现。我们在 GPT-2 上的实验表明，即使转换只是近似的，模型仍然从包含的偏置项中获得了有价值的上下文。

Jun, 2024

上下文化学习创建任务向量

使用全面实验证明，In-context learning 通常具有非常简单的结构，即对应于仅有查询 x 和从训练集计算得到的单个 “任务向量” 的 Transformer LLM，可将训练集 S 压缩为单个任务向量 θ(S)，并使用该任务向量来调节 Transformer 以产生输出。

Oct, 2023

语言模型加权低秩估计的数值优化

我们提出了一种加权奇异值分解压缩 Transformer 的语言模型的方法，该方法考虑了神经网络参数的不平等重要性，并解决了没有封闭形式解决方案的非凸优化问题。实验结果表明，相较于传统的 SVD 方法，在压缩 Transformer 的语言模型时，我们的方法可以获得更好的效果。

Nov, 2022