将Adam推广到流形上以高效训练Transformers
本文提出了一种将欧几里得网络范例泛化到Grassmann 流形的深度网络体系结构,利用完全秩映射层将输入数据转换为更理想的数据,利用再正则化层对结果矩阵进行规范化,利用投影映射层使结构数据进行更新,并在三个视觉识别任务中的评估显示出 Grassmann 网络具有明显优势。
Nov, 2016
本文提出了一种面向流形训练深度神经网络的通用框架,利用切空间和指数映射,将最终输出元素在Riemann流形上的深度神经网络的训练问题转化为当前深度学习研究的问题,在多类图像分类和人脸图像回归上显示出改进后的性能。
Aug, 2017
本研究通过对参数进行正交约束优化,提出了两种算法-Cayley SGD和Cayley ADAM,达到节省运行时间的效果并实现了CNN的更快收敛率与更少训练时间。
Feb, 2020
研究神经网络中的多重流形问题,证明当网络深度相对于数据的几何和统计属性较大时,其宽度作为统计资源,使随机初始化网络的梯度集中,而其深度作为拟合资源,更易于分离类流形,基于神经切向核及其在训练超参数化神经网络方面的作用,我们为深度全连接网络的神经切向核提供了完全优化的集中速率。
Aug, 2020
本文结合奇异黎曼几何对深度神经网络进行了研究,提出了构建输入点等价类的方法,它为新合成数据的生成提供了途径,并能提供分类器误判原因的洞察。
Dec, 2021
本论文提出一种通过神经隐式流来表示数据流形分布的方法,称为神经隐式流分布。为了解决基于前向模型的限制,引入了约束能量模型,该方法使用约束的Langevin动力学来训练和采样,能比前向模型更精确地学习复杂拓扑结构的流形支持分布,并允许将模型流形的并集和交集进行运算。
Jun, 2022
该论文提出了一种在矩阵流形上构建神经网络的新模型和层,通过将陀螺向量空间的理论应用于SPD和Grassmann流形上,推广了一些概念,并以人体动作识别和知识图谱完成两个应用来展示其有效性。
May, 2023
本文提出了一种利用归纳偏置驱动的网络设计原则和基于层的流形正则化目标来实现神经网络学习过程中提高内存效率的框架,该框架的使用结果相对于传统学习技术具有更好的绝对性能和实证一般化误差,可以无缝地与现有的网络压缩方法相结合。
May, 2023
在Riemann流形上的深度神经网络已经在各个应用领域受到越来越多的关注,其中包括球面和双曲面流形上的DNN在计算机视觉和自然语言处理任务中的广泛应用。而球面和双曲面流形能够应用双翼运算和双翼向量空间的丰富代数结构,为成功的深度神经网络在这些流形上的推广提供了基础。最近的一些研究表明,双翼运算和双翼向量空间理论中的许多概念也能够推广到矩阵流形,比如对称正定和Grassmann流形。基于这些工作,我们设计了用于对称正定流形上的全连接和卷积层,并在Grassmann投影视角上提出了一种使用Grassmann对数映射进行反向传播的方法。我们在人类动作识别和节点分类任务中验证了这种方法的有效性。
May, 2024
通过对流形假设的研究,我们发现神经网络的可学习性与流形的曲率、正则性以及数据流形的体积之间存在紧密的关联;流形的有限曲率限制了学习问题的可解性,而数据流形的体积增加则会提高网络的可学习性。此外,我们还探讨了在真实世界数据中常见的具有异质特征的中间流形区域的情况。
Jun, 2024