我们对两层回归问题进行了分析,使用了 softmax 激活单元作为第一层,并分析了近似牛顿法用于最小化正则化训练损失的收敛性质,证明了 Hessian 矩阵的损失函数是正定和 Lipschitz 连续的,在适当的初始化和迭代次数后,我们的算法可以高概率地找到训练损失的 ε- 近似最小化器。
Nov, 2023
本文探讨了大型语言模型(LLMs)的 softmax 单元,在 LLMs 中的重要性与在具有凸优化问题的中心路径法等其他应用中的使用,同时提出并证明了一种基于贪心算法的 softmax 回归方法,为了在实践中使用此方法提供了理论支持。
Apr, 2023
这篇论文介绍了大语言模型的应用领域以及指数函数注意力单元在其中的基础作用,以及对指数回归和 softmax 回归的研究,并且给出了一个解决输入稀疏问题的算法框架。
May, 2023
这篇论文通过理论分析提供了连接大语言模型、softmax 回归、残差神经网络以及优化问题的统一方案,揭示出了损失函数的梯度、Hessian 矩阵以及利普希茨特性,并通过该方案为未来深度学习模型的研究提供了新的洞察。
Sep, 2023
本文针对 Transformer 注意机制进行研究,基于 softmax 回归建模,研究了单个自注意力层诱导数据转换的上限,并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务,发现梯度下降和 Transformers 所学的模型具有很大的相似性。
本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型,该模型采用 ReLU 激活函数来代替 softmax 函数,通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明,ReLA 模型在机器翻译任务中表现良好,且实现效率高,同时能够实现高稀疏率和头部多样性。
Apr, 2021
本文研究学习呈现形式为 $max (0,<w,x>)$ 的修正线性单元(ReLUs)的问题,聚焦于高维场景下,权重向量的维数大于样本数的情形,针对实现可能性模型,展示了投影梯度下降算法在 0 处初始化的线性收敛率,这一结果对于深度架构的动态具有一定的参考价值。
May, 2017
本文使用 Zero-th Order 算法针对 softmax 优化提出一个算法,通过使用该算法,我们的工作为复杂语言模型的优化技术的进展做出了贡献。
Jul, 2023
本文介绍了注意力相关回归问题在矩阵形式下的向量化技术及利普希茨分析结果。
通过替代点积和基于 Softmax 的注意力机制,将其替换为仅包含加法和 ReLU 激活的替代机制,以提高量化 Transformer 的计算效率,并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化 Transformer 模型。
Oct, 2023