损失面体连接简单形式和快速集成
本研究利用一种新的几何洞见发现了深度神经网络损失函数的凸性及优化过程中损失函数可达到极值的简单曲线,提出了一种利用此洞见的训练方法,并提出了一种名为快速几何融合(FGE)的新的集成方法,在 CIFAR-10、CIFAR-100 和 ImageNet 三个数据集上,与最新的快照集成法相比取得了更好的性能。
Feb, 2018
本文提出了一种新颖的框架来建立 “桥梁” 网络,以降低深度网络应用时的推断成本。通过预测在低损失子空间中评估原神经网络的输出,我们的 “桥梁” 网络可以在不经过原神经网络的前向传递的情况下预测低损失子空间中的输出,实验结果表明,我们确实可以使用这样的 “桥梁” 网络来降低推断成本。
Jun, 2023
本文通过研究不同训练条件下的模型连接性,探索了通过余弦退火和重启的随机梯度下降方法对损失表面的训练轨迹的影响,通过实验证明了 SGDR 方法虽然能够跨越障碍,但是不能收敛于多个局部最小值。
Jun, 2018
本文研究了全连接前馈神经网络的非凸损失函数与球形自旋玻璃模型哈密顿量之间的联系,并通过随机矩阵理论的结果来解释网络的复杂性和局部极小值的位置分布,利用计算机模拟和数学模型对结果进行了验证和验证。
Nov, 2014
通过对多层神经网络中的损失函数的拓扑度量,研究比较深层和浅层架构的复杂性以及其受隐藏单元数量、训练模型和激活函数的影响,揭示了一些特定情况下,添加正则项或在前馈网络中实施跳跃连接等对损失拓扑没有影响。
Jan, 2024
过参数化网络损失面的子级集合是连接的,本文描述和比较了一系列用于连接两个低损失点的低损失曲面的方法,其中大多数方法基于 “宏观” 分布假设,一些对待连接的点的详细属性不敏感,需要先训练全局连接模型来应用于任意一对点,方法的准确性通常与其复杂性和端点细节的敏感性相关。
Aug, 2020
使用信息几何的框架,我们假设在参数化分布的空间中的最短路径(称为测地线)对应于损失景观中的模式连接路径,并提出了一种算法来近似这些测地线并证明它们实现了模式连接的功能。
Aug, 2023
通过多点优化法,从神经网络的损失曲面中发现任意二维二进制模式,证明这是深度普适型逼近器的普遍属性,我们的分析不仅预测了所有这些低维度模式的存在,而且还预测了容易找到这些模式的属性,且它们可以适用于其他数据集。
Dec, 2019
本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响,该框架考虑了网络权重置换的影响,提出了称为神经元对齐的廉价启发式方法来近似最优置换,从而证明了该方法在模式连通性方面的实际效果优越。
Sep, 2020