这篇论文介绍了大语言模型的应用领域以及指数函数注意力单元在其中的基础作用,以及对指数回归和 softmax 回归的研究,并且给出了一个解决输入稀疏问题的算法框架。
May, 2023
这篇论文通过理论分析提供了连接大语言模型、softmax 回归、残差神经网络以及优化问题的统一方案,揭示出了损失函数的梯度、Hessian 矩阵以及利普希茨特性,并通过该方案为未来深度学习模型的研究提供了新的洞察。
Sep, 2023
本文使用 Zero-th Order 算法针对 softmax 优化提出一个算法,通过使用该算法,我们的工作为复杂语言模型的优化技术的进展做出了贡献。
Jul, 2023
大语言模型中的注意力计算结构,以及利用 Hessian 矩阵找到近似最优解的算法。
Aug, 2023
本文介绍了注意力相关回归问题在矩阵形式下的向量化技术及利普希茨分析结果。
本文针对 Transformer 注意机制进行研究,基于 softmax 回归建模,研究了单个自注意力层诱导数据转换的上限,并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务,发现梯度下降和 Transformers 所学的模型具有很大的相似性。
Apr, 2023
通过理论研究两层 softmax 神经网络的优化和泛化性质,揭示了 softmax 函数的归一化效应对所引起的神经核矩阵的扰动性能具有利于构建良好的损失函数曲面凸区域,从而 softmax 神经网络可以在超参数多于样本数量的情况下学习目标函数。
May, 2024
通过研究 softmax 分布和 leverage score 模型,在二元假设测试问题上得出了与样本复杂度相关的结果。
利用训练大语言模型的理论方法,可以避免生成版权数据。
文章提出了一种名为自适应 softmax 的算法,采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度,并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定,能够在保证高精度的同时显著提高计算速度。
Sep, 2016