变压器作为支持向量机

Aug, 2023

Transformers as Support Vector Machines

Davoud Ataee Tarzanagh, Yingcong Li, Christos Thrampoulidis, Samet Oymak

TL;DR自注意力机制和 SVM 问题之间存在形式上的等价性及其对训练方向和全局优化的影响。

Abstract

Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax$(XQK^\to

transformer architecture self-attention optimization geometry svm implicit bias

发现论文，激发创造

注意力机制中的边缘最大化

本研究探讨了注意力机制作为令牌分离机制的形式，并论证了运行梯度下降收敛于最大边缘解，同时提出了广泛的正则化路径分析。

Jun, 2023

自注意力的隐性偏见和快速收敛速率

通过对自注意力机制进行梯度下降的隐式偏差研究，我们在二进制分类中的固定线性解码器上训练自注意力层，证明了全局收敛并量化了关注图的稀疏化速率，同时分析了自适应步长规则对自注意力收敛速度的加速效果，从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。

Feb, 2024

Transformer 和神经网络的原始 - 对偶框架

自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键，本研究提出了一种基于支持向量回归问题的自注意力构建方法，推导出常用的注意力层，并提出了两种新型注意力机制：1) 批正则注意力，2) 缩放头注意力，通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。

Jun, 2024

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020

Transformer 分解：通过核的视角统一理解 Transformer 的注意力机制

该论文通过内核视角呈现关注力的新公式，将输入流应用于内核平滑器，提出用对称内核对输入流建模的注意力机制变种，以较少的计算成本实现与最先进模型相媲美的竞争性表现，实验证明不同的内核构建策略能够应用于神经机器翻译和序列预测这两个广泛使用的任务。

Aug, 2019

一层 Softmax 注意力梯度流的隐性正则化

研究一层 softmax 注意模型上指数损失的梯度流问题，通过分离地训练键值矩阵，我们在数据可分性假设下证明梯度流在达到最小损失值时，进一步隐式地最小化键值矩阵乘积的核范数，这种隐式正则化可以用关注权重的支持向量机（SVM）问题来描述。与先前结果相反，当将键值矩阵合并为单个权重矩阵进行训练时，梯度下降对于乘积权重矩阵的 Frobenius 范数引入了隐式正则化。对于对角键值和查询矩阵，我们的分析建立在重新参数化技术和利用与分类数据相关的 SVM 近似 KKT 条件的基础上。此外，该结果对于给定适当对齐的权重矩阵奇异空间与数据特征的初始化情况也同样适用。

Mar, 2024

为什么 “经典” Transformer 是浅层的以及如何使其深入

通过理论和实证综合研究，证实了 Transformer 模型的深度问题是由于令牌相似性逐步增加所导致的，提出了一种简单的策略来解决这个问题，并初步实验证实了该方法在中等规模的后标准化 Transformer 模型上的有效性。

Dec, 2023