神经网络分类器的末尾和倒数第二层出现单纯对称的研究
本文通过实验和理论研究了神经网络的波动,发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。
Oct, 2019
通过内在对称性的理论框架,使用有限差分法实现了在实践中使用的有限学习率的精确积分表达式来描述在任何数据集上通过深度学习训练出的当代网络体系结构的各种参数组合的学习动力学。
Dec, 2020
本文通过组合分析的方式,对超参数化神经网络中对称引起的关键点进行了探讨,发现这些关键点生成的正则流形在 mildly overparameterized regime 时占优,但是当 vastly overparameterized regime 时,亚线性关键点数量的组合爆炸会占据优势。最终得出一个数学公式来计算关键点数量。
May, 2021
对于机器学习模型的对称性和内部数据表示之间的关联,我们提出了本文中阐述的模型内联群的概念,通过相似实验,我们将内联群与具有相同架构的模型之间的隐藏状态相似性联系起来,从而更好地理解体系结构如何影响学习和预测过程。最后,我们猜测对于ReLU网络,内联群可能提供一种合理的解释为什么要在隐藏层中集中探索模型可解释性。
May, 2022
本文通过对深度学习的数据(D)、模型(M)和推理算法(I)进行联合分析,提出了解决高维数据下维数灾难的关键协同作用,其中深度学习的网络结构对数据分布的对称性要求最高。
Jul, 2022
对称性在当代神经网络中普遍存在,本文揭示了损失函数对学习模型的学习行为影响的重要性,证明了损失函数的每个镜像对称性都会带来一种结构约束,当权重衰减或梯度噪音较大时,这种约束成为一种被偏爱的解决方案。作为直接的推论,我们展示了重新缩放对称性导致稀疏性,旋转对称性导致低秩性,置换对称性导致同质集成。然后,我们展示了理论框架可以解释神经网络中可塑性的丧失和各种崩溃现象,并提出如何使用对称性来设计能够以可微分方式实施硬约束的算法建议。
Sep, 2023
通过梯度下降,我们研究了学习等变神经网络的问题。尽管已知的问题对称(“等变性”)被纳入神经网络中,经验上改善了从生物学到计算机视觉等领域的学习流程的性能,但是一项有关学习理论的研究表明,在相关统计查询模型(CSQ)中,实际学习浅层全连接(即非对称)网络的复杂度呈指数级增长。在这项工作中,我们提出了一个问题:已知的问题对称是否足以减轻通过梯度下降学习等变神经网络的基本困难?我们的答案是否定的。特别地,我们给出了浅层图神经网络、卷积网络、不变多项式和排列子群的框架平均网络的下界,这些下界在相关输入维度中都以超多项式或指数级增长。因此,尽管通过对称性注入了显著的归纳偏差,但通过梯度下降实际学习等变神经网络所代表的完整函数类仍然是困难的。
Jan, 2024
本研究探讨了神经网络优化中对称破缺这一重要概念的作用,填补了理论与实践之间的知识空白。通过简单的输入扩展方法,研究表明可以显著提升网络在多种任务中的性能,而这一提升与对称破缺机制密切相关。此外,我们提出了一种量化神经网络对称破缺程度的指标,为有效的网络设计提供了实用指导。
Sep, 2024
本研究解决了神经网络优化中对称破缺的理解不足问题,提出了对称破缺假设,以阐明其在网络优化中的重要性。通过简单的输入维度扩展,我们发现网络性能可以显著提升,这一进步归因于对称破缺机制。研究结果表明,对称破缺是多种优化技术的基础,并为网络设计提供了量化评估的实用方法。
Sep, 2024