变压器作为支持向量机
通过对自注意力机制进行梯度下降的隐式偏差研究,我们在二进制分类中的固定线性解码器上训练自注意力层,证明了全局收敛并量化了关注图的稀疏化速率,同时分析了自适应步长规则对自注意力收敛速度的加速效果,从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。
Feb, 2024
自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键,本研究提出了一种基于支持向量回归问题的自注意力构建方法,推导出常用的注意力层,并提出了两种新型注意力机制:1) 批正则注意力,2) 缩放头注意力,通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。
Jun, 2024
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
Oct, 2023
本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题,并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明,与现有的 MLP 或线性 heuads 相比,自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。
May, 2022
本文介绍了 softmax-attention 在几何上的局限性,并提出采用归一化代替 softmax 实现自我注意力,从而获得超参数和数据推断鲁棒性较强的通用结构。
May, 2020
该论文通过内核视角呈现关注力的新公式,将输入流应用于内核平滑器,提出用对称内核对输入流建模的注意力机制变种,以较少的计算成本实现与最先进模型相媲美的竞争性表现,实验证明不同的内核构建策略能够应用于神经机器翻译和序列预测这两个广泛使用的任务。
Aug, 2019
研究一层 softmax 注意模型上指数损失的梯度流问题,通过分离地训练键值矩阵,我们在数据可分性假设下证明梯度流在达到最小损失值时,进一步隐式地最小化键值矩阵乘积的核范数,这种隐式正则化可以用关注权重的支持向量机(SVM)问题来描述。与先前结果相反,当将键值矩阵合并为单个权重矩阵进行训练时,梯度下降对于乘积权重矩阵的 Frobenius 范数引入了隐式正则化。对于对角键值和查询矩阵,我们的分析建立在重新参数化技术和利用与分类数据相关的 SVM 近似 KKT 条件的基础上。此外,该结果对于给定适当对齐的权重矩阵奇异空间与数据特征的初始化情况也同样适用。
Mar, 2024
通过理论和实证综合研究,证实了 Transformer 模型的深度问题是由于令牌相似性逐步增加所导致的,提出了一种简单的策略来解决这个问题,并初步实验证实了该方法在中等规模的后标准化 Transformer 模型上的有效性。
Dec, 2023