从复杂到清晰:通过 Clifford 的几何代数和凸性分析深度神经网络权重的解析表达
本文研究正则化深度神经网络及其隐层结构,通过凸分析框架构建问题的最优隐层权重,证明 For 深度 ReLU 网络,权重矩阵与之前的层通过对偶对齐,并给出了数据为基态或白话时的权重的解析解。同时,该研究也可以甚至适用于具有批归一化架构的深度神经网络,并给出了 “神经坍塌” 现象的完整解释。
Feb, 2020
我们引入了随机算法到 Clifford 几何代数,将随机线性代数推广到超复向量空间。这种新颖的方法在机器学习中有很多涵义,包括通过凸优化将神经网络训练到全局最优。此外,我们考虑了细调大型语言模型(LLM)中的嵌入作为一个关键应用领域,探索几何代数和现代人工智能技术的交叉点。特别地,我们通过传统方法与基于凸优化的新方法进行了鲁棒的转移学习的比较分析,其中测试了不同嵌入(GPT-4 和 BERT 嵌入)和不同文本分类数据集(IMDb、Amazon Polarity Dataset 和 GLUE)以及一系列超参数设置的凸优化传输学习方法。我们的结果表明,凸优化和几何代数不仅提高了 LLMs 的性能,还提供了一种更稳定和可靠的传输学习方法通过嵌入。
Jun, 2024
本研究通过凸优化理论分析发现,ReLU 神经网络通过一种隐含的正则化机制实现高维特征选择,并证明了该等价凸问题可以通过标准凸优化求解器在多项式时间内全局优化。
Oct, 2021
研究使用单项式激活函数的多项式神经网络 (PNNs) 的表达能力和学习过程。探讨了使用代数几何工具对某些神经流形进行研究:给出了半代数集的显式描述,并表征了其 Zariski 闭包,称之为神经多样性。研究了神经多样性的维度,并将一个代数度量,即学习度,与神经多样性相关联。维度用作网络表达能力的几何度量,学习度用作训练网络的复杂度度量,并提供了可学习函数数量的上限。这些理论结果与实验证明相伴。
Feb, 2024
通过引入递归算法,我们生成多项式方程,其共同零点对应于相应神经多丘道的 Zariski 闭包。此外,我们还利用度量代数几何的工具来研究训练这些网络的代数复杂度。我们的研究发现,此类网络的优化中的所有复杂临界点的数量等于 Segre 多样性的一般欧几里得距离度。值得注意的是,这个数量显著超过了具有相同参数数量的全连接线性网络的训练中遇到的关键点数量。
Jan, 2024
本文中,我们利用半无限对偶及最小规范化,将使用修正线性单元的两层神经网络的训练准确表述为单一凸程序,其变量数量与训练样本数量和隐藏层神经元数量呈多项式关系,并证明使用标准权重衰减进行修正线性单元网络训练的等效于带块 $l_1$ 惩罚的凸模型。此外,我们还证明了某些标准卷积线性网络等效于半定程序,可以在多项式大小的离散傅里叶特征空间中简化为带 $l_1$ 正则化的线性模型。
Feb, 2020
研究神经网络单隐层的一般化性能,使用非欧几里得正则化工具,证明了它们适应未知的线性结构,而使用稀疏感应规范则可以实现高维非线性变量选择,提供了简单的几何解释,并提供了一些凸松弛的简单条件来实现相同的一般化误差界限,留下存在或不存在多项式时间算法的问题。
Dec, 2014
本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距,揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定,且应用简单的算法可在多项式时间内解决原非凸问题,此外,在合理假设下,随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点,此结果相对现有结果而言具有指数级改进,并对解释局部梯度方法为何行之有效提供了新的见解。
Feb, 2024
通过发现前馈神经网络中某一层神经元的活动变化与连接到下一层神经元的权重变化之间的完全对偶性,我们提出了一个统一的框架来研究如何控制两个几何因子(loss 地形的尖锐度和双重权重值的标准差,其缩放与解的权重范数成比例)来影响一般化的性能,控制分类器的通用性。
Mar, 2022
本文利用黎曼几何和高维混沌的平均场理论相结合,研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变,并证明了浅层网络无法高效地计算这种深度随机函数族。此外,我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。
Jun, 2016