非线性单元的两层回归的收敛性

Aug, 2023

Convergence of Two-Layer Regression with Nonlinear Units

Yichuan Deng, Zhao Song, Shenghao Xie

TL;DR大语言模型中的注意力计算结构，以及利用 Hessian 矩阵找到近似最优解的算法。

Abstract

large language models (LLMs), such as ChatGPT and GPT4, have shown outstanding performance in many human life task. attention computation plays an important role in training LLMs. Softmax unit and ReLU unit are t

large language models attention computation softmax relu regression hessian of the loss function convergence in the sense of loss value

发现论文，激发创造

两层非线性回归的近似牛顿方法的局部收敛性

我们对两层回归问题进行了分析，使用了 softmax 激活单元作为第一层，并分析了近似牛顿法用于最小化正则化训练损失的收敛性质，证明了 Hessian 矩阵的损失函数是正定和 Lipschitz 连续的，在适当的初始化和迭代次数后，我们的算法可以高概率地找到训练损失的 ε- 近似最小化器。

Nov, 2023

基于注意力机制的 Softmax 回归

本文探讨了大型语言模型（LLMs）的 softmax 单元，在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用，同时提出并证明了一种基于贪心算法的 softmax 回归方法，为了在实践中使用此方法提供了理论支持。

Apr, 2023

重缩超半球函数回归的迭代算法

这篇论文介绍了大语言模型的应用领域以及指数函数注意力单元在其中的基础作用，以及对指数回归和 softmax 回归的研究，并且给出了一个解决输入稀疏问题的算法框架。

May, 2023

ResNet 和 Softmax 的统一方案

这篇论文通过理论分析提供了连接大语言模型、softmax 回归、残差神经网络以及优化问题的统一方案，揭示出了损失函数的梯度、Hessian 矩阵以及利普希茨特性，并通过该方案为未来深度学习模型的研究提供了新的洞察。

Sep, 2023

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

稀疏注意力与线性单元

本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型，该模型采用 ReLU 激活函数来代替 softmax 函数，通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明，ReLA 模型在机器翻译任务中表现良好，且实现效率高，同时能够实现高稀疏率和头部多样性。

Apr, 2021

通过梯度下降学习 ReLU

本文研究学习呈现形式为 $max (0,<w,x>)$ 的修正线性单元（ReLUs）的问题，聚焦于高维场景下，权重向量的维数大于样本数的情形，针对实现可能性模型，展示了投影梯度下降算法在 0 处初始化的线性收敛率，这一结果对于深度架构的动态具有一定的参考价值。

May, 2017

Softmax 注意力优化的零阶算法

本文使用 Zero-th Order 算法针对 softmax 优化提出一个算法，通过使用该算法，我们的工作为复杂语言模型的优化技术的进展做出了贡献。

Jul, 2023

基于张量技巧的上下文学习注意力机制：从单个 softmax 回归到多个 softmax 回归

本文介绍了注意力相关回归问题在矩阵形式下的向量化技术及利普希茨分析结果。

Jul, 2023

抑制因子：ReLU 和基于加法的注意力用于高效 Transformer

通过替代点积和基于 Softmax 的注意力机制，将其替换为仅包含加法和 ReLU 激活的替代机制，以提高量化 Transformer 的计算效率，并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化 Transformer 模型。

Oct, 2023