一层 Softmax 注意力梯度流的隐性正则化

Mar, 2024

一层 Softmax 注意力梯度流的隐性正则化

Implicit Regularization of Gradient Flow on One-Layer Softmax Attention

Heejune Sheen, Siyu Chen, Tianhao Wang, Harrison H. Zhou

TL;DR研究一层 softmax 注意模型上指数损失的梯度流问题，通过分离地训练键值矩阵，我们在数据可分性假设下证明梯度流在达到最小损失值时，进一步隐式地最小化键值矩阵乘积的核范数，这种隐式正则化可以用关注权重的支持向量机（SVM）问题来描述。与先前结果相反，当将键值矩阵合并为单个权重矩阵进行训练时，梯度下降对于乘积权重矩阵的 Frobenius 范数引入了隐式正则化。对于对角键值和查询矩阵，我们的分析建立在重新参数化技术和利用与分类数据相关的 SVM 近似 KKT 条件的基础上。此外，该结果对于给定适当对齐的权重矩阵奇异空间与数据特征的初始化情况也同样适用。

Abstract

We study gradient flow on the exponential loss for a classification problem with a one-layer softmax attention model, where the key and qu

gradient flow exponential loss softmax attention model implicit regularization support vector machine (svm)

发现论文，激发创造

变压器作为支持向量机

自注意力机制和 SVM 问题之间存在形式上的等价性及其对训练方向和全局优化的影响。

Aug, 2023

多头 Softmax 注意力的上下文学习训练动态：出现、收敛和最优性

我们研究了多头 softmax 注意力模型在上下文学习多任务线性回归中的渐变流动动力学。通过适当选择初始化，我们确定了梯度流的全局收敛性。此外，我们证明了梯度流动力学中出现了有趣的 “任务分配” 现象，在这个过程中，每个注意力头专注于解决多任务模型的单个任务。具体而言，我们证明了梯度流动力学可以分为三个阶段 —— 热身阶段，其中损失减少得相对较慢，注意力头逐渐倾向于各自的任务；出现阶段，其中每个头选择一个任务，损失迅速降低；收敛阶段，注意参数收敛到一个极限。此外，我们证明了梯度流在优化上的最佳性，即由梯度流学习到的极限模型与最佳的多头 softmax 注意力模型相当，仅相差一个常数因子。我们的分析还明确了单头和多头注意力模型在 ICL 的预测准确性方面的严格区别。我们收敛分析的关键技术是将参数空间中的梯度流动力学映射到谱域中的一组常微分方程，其中注意力权重的半奇特征值的相对大小确定了任务分配。据我们所知，我们的工作为多头 softmax 注意力模型提供了第一个收敛结果。

Feb, 2024

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

自注意力的隐性偏见和快速收敛速率

通过对自注意力机制进行梯度下降的隐式偏差研究，我们在二进制分类中的固定线性解码器上训练自注意力层，证明了全局收敛并量化了关注图的稀疏化速率，同时分析了自适应步长规则对自注意力收敛速度的加速效果，从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。

Feb, 2024

通过权重归一化实现强大的隐式正则化

本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性，并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。

May, 2023

一种快速优化视角：基于张量和 SVM 技巧重构 LLM 中的单层注意力机制，并在矩阵乘法时间内解决

通过迭代贪婪算法，在近似于 ε 的时间内训练了一个损失函数 L (X,Y)，其中 ε 是迭代次数，该算法关注大型语言模型、注意力回归、单层注意力网络、矩阵乘法等关键主题。

Sep, 2023

随机梯度流对最小二乘隐式正则化

研究隐式正则化的小批量随机梯度下降，以最小二乘回归为基础问题，利用具有与随机梯度下降相同矩的连续时间随机微分方程，称为随机梯度流。给出了随时间 t 随机梯度流的超额风险的界限，超过了具有调整参数 λ=1/t 的岭回归，此界限可以从明确的常数（例如小批量大小，步长，迭代次数）计算出来，显示了这些数量如何精确地推动超额风险。数值实验表明，边界可以很小，表明两种估计值之间存在紧密关系。给出了一个类似的结果，将随机梯度流和岭的系数联系起来。这些结果不受数据矩阵 X 的任何条件限制，并且跨越整个优化路径（不仅仅在收敛处）

Mar, 2020

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括 softmax 和稀疏 max 作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017

注意力机制中的边缘最大化

本研究探讨了注意力机制作为令牌分离机制的形式，并论证了运行梯度下降收敛于最大边缘解，同时提出了广泛的正则化路径分析。

Jun, 2023

组稀疏的隐式正则化

通过一种新的神经再参数化方法，即对角线分组线性神经网络，研究了梯度下降对结构稀疏性的隐式正则化。与现有方法相比，我们的方法证明了最小化正则化和模拟下降无法模拟我们的训练轨迹，并在一般噪声设置中分析了相应的回归问题的梯度动态和最小极小误差率。

Jan, 2023