基于注意力机制的 Softmax 回归

Apr, 2023

Attention Scheme Inspired Softmax Regression

Yichuan Deng, Zhihang Li, Zhao Song

TL;DR本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Abstract

Large language models (llms) have made transformed changes for human society. One of the key computation in llms is the softmax unit. This

llms softmax unit neural network convex optimization greedy algorithm

发现论文，激发创造

重缩超半球函数回归的迭代算法

这篇论文介绍了大语言模型的应用领域以及指数函数注意力单元在其中的基础作用，以及对指数回归和 softmax 回归的研究，并且给出了一个解决输入稀疏问题的算法框架。

May, 2023

ResNet 和 Softmax 的统一方案

这篇论文通过理论分析提供了连接大语言模型、softmax 回归、残差神经网络以及优化问题的统一方案，揭示出了损失函数的梯度、Hessian 矩阵以及利普希茨特性，并通过该方案为未来深度学习模型的研究提供了新的洞察。

Sep, 2023

Softmax 注意力优化的零阶算法

本文使用 Zero-th Order 算法针对 softmax 优化提出一个算法，通过使用该算法，我们的工作为复杂语言模型的优化技术的进展做出了贡献。

Jul, 2023

非线性单元的两层回归的收敛性

大语言模型中的注意力计算结构，以及利用 Hessian 矩阵找到近似最优解的算法。

Aug, 2023

基于张量技巧的上下文学习注意力机制：从单个 softmax 回归到多个 softmax 回归

本文介绍了注意力相关回归问题在矩阵形式下的向量化技术及利普希茨分析结果。

Jul, 2023

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

探索 Softmax 的前沿：可证明的优化、扩散模型应用与更多

通过理论研究两层 softmax 神经网络的优化和泛化性质，揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域，从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。

May, 2024

Softmax 模型和杠杆得分模型的二元假设检验

通过研究 softmax 分布和 leverage score 模型，在二元假设测试问题上得出了与样本复杂度相关的结果。

May, 2024

如何在大型语言模型的优化中保护版权数据？

利用训练大语言模型的理论方法，可以避免生成版权数据。

Aug, 2023

GPU 上高效的 softmax 近似算法

文章提出了一种名为自适应 softmax 的算法，采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度，并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定，能够在保证高精度的同时显著提高计算速度。

Sep, 2016