基于张量技巧的上下文学习注意力机制：从单个 softmax 回归到多个 softmax 回归

Jul, 2023

基于张量技巧的上下文学习注意力机制：从单个 softmax 回归到多个 softmax 回归

In-Context Learning for Attention Scheme: from Single Softmax Regression to Multiple Softmax Regression via a Tensor Trick

PDF

Yeqi Gao, Zhao Song, Shenghao Xie

TL;DR本文介绍了注意力相关回归问题在矩阵形式下的向量化技术及利普希茨分析结果。

Abstract

large language models (LLMs) have brought significant and transformative changes in human society. These models have demonstrated remarkable capabilities in natural language understanding and generation, leading

large language models natural language understanding attention-related regression matrix formulation lipschitz analysis

发现论文，激发创造

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

一种快速优化视角：基于张量和 SVM 技巧重构 LLM 中的单层注意力机制，并在矩阵乘法时间内解决

通过迭代贪婪算法，在近似于 ε 的时间内训练了一个损失函数 L (X,Y)，其中 ε 是迭代次数，该算法关注大型语言模型、注意力回归、单层注意力网络、矩阵乘法等关键主题。

Sep, 2023

重缩超半球函数回归的迭代算法

这篇论文介绍了大语言模型的应用领域以及指数函数注意力单元在其中的基础作用，以及对指数回归和 softmax 回归的研究，并且给出了一个解决输入稀疏问题的算法框架。

May, 2023

ResNet 和 Softmax 的统一方案

这篇论文通过理论分析提供了连接大语言模型、softmax 回归、残差神经网络以及优化问题的统一方案，揭示出了损失函数的梯度、Hessian 矩阵以及利普希茨特性，并通过该方案为未来深度学习模型的研究提供了新的洞察。

Sep, 2023

基于注意力机制的 Softmax 回归

本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Apr, 2023

多头注意力在上下文线性回归中的优势

我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为 O (1/D)，而多头注意力的乘法常数较小。此外，在最简单的数据分布设置之外，我们还考虑了更多的场景，如噪声标签、本地示例、相关特征和先验知识，观察到一般情况下多头注意力优于单头注意力，我们的结果验证了 transformer 架构中多头注意力设计的有效性。

Jan, 2024

基于 Transformer 的上下文学习：Softmax 注意力适应函数的 Lipschitz 特性

在隐含背景数据的推断过程中，探索了 softmax 注意力机制在回归任务中的作用，发现注意力单元通过学习窗口，可以适应不同的预训练任务，并随着 Lipschitz 性质降低和标签噪声增加而扩大，同时对于低秩线性问题，注意力单元可以在推断之前进行适当的投影。此外，该适应性依赖于 softmax 激活函数，不同于传统线性激活函数的理论分析。

Feb, 2024

多头 Softmax 注意力的上下文学习训练动态：出现、收敛和最优性

我们研究了多头 softmax 注意力模型在上下文学习多任务线性回归中的渐变流动动力学。通过适当选择初始化，我们确定了梯度流的全局收敛性。此外，我们证明了梯度流动力学中出现了有趣的 “任务分配” 现象，在这个过程中，每个注意力头专注于解决多任务模型的单个任务。具体而言，我们证明了梯度流动力学可以分为三个阶段 —— 热身阶段，其中损失减少得相对较慢，注意力头逐渐倾向于各自的任务；出现阶段，其中每个头选择一个任务，损失迅速降低；收敛阶段，注意参数收敛到一个极限。此外，我们证明了梯度流在优化上的最佳性，即由梯度流学习到的极限模型与最佳的多头 softmax 注意力模型相当，仅相差一个常数因子。我们的分析还明确了单头和多头注意力模型在 ICL 的预测准确性方面的严格区别。我们收敛分析的关键技术是将参数空间中的梯度流动力学映射到谱域中的一组常微分方程，其中注意力权重的半奇特征值的相对大小确定了任务分配。据我们所知，我们的工作为多头 softmax 注意力模型提供了第一个收敛结果。

Feb, 2024

非线性单元的两层回归的收敛性

大语言模型中的注意力计算结构，以及利用 Hessian 矩阵找到近似最优解的算法。

Aug, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023