损失面体连接简单形式和快速集成

ICMLFeb, 2021

损失面体连接简单形式和快速集成

Loss Surface Simplexes for Mode Connecting Volumes and Fast Ensembling

Gregory W. Benton, Wesley J. Maddox, Sanae Lotfi, Andrew Gordon Wilson

TL;DR该研究发现在多层网络中存在形成低误差的多维流形的模连接简单复合体，可用于构建高效的简单复合体来进行快速集成，具有优于独立训练深层集成的准确性、校准性和对数据集转换稳健性的特点。

Abstract

With a better understanding of the loss surfaces for multilayer networks, we can build more robust and accurate training procedures. Recently it was discovered that independently trained →

multilayer networks training procedures sgd solutions simplicial complexes deep ensembles

发现论文，激发创造

损失曲面、模式连通性和 DNN 的快速集成

本研究利用一种新的几何洞见发现了深度神经网络损失函数的凸性及优化过程中损失函数可达到极值的简单曲线，提出了一种利用此洞见的训练方法，并提出了一种名为快速几何融合（FGE）的新的集成方法，在 CIFAR-10、CIFAR-100 和 ImageNet 三个数据集上，与最新的快照集成法相比取得了更好的性能。

Feb, 2018

函数空间内遍历模式以实现快速集成

本文提出了一种新颖的框架来建立 “桥梁” 网络，以降低深度网络应用时的推断成本。通过预测在低损失子空间中评估原神经网络的输出，我们的 “桥梁” 网络可以在不经过原神经网络的前向传递的情况下预测低损失子空间中的输出，实验结果表明，我们确实可以使用这样的 “桥梁” 网络来降低推断成本。

Jun, 2023

利用模式连通性进行损失函数分析

本文通过研究不同训练条件下的模型连接性，探索了通过余弦退火和重启的随机梯度下降方法对损失表面的训练轨迹的影响，通过实验证明了 SGDR 方法虽然能够跨越障碍，但是不能收敛于多个局部最小值。

Jun, 2018

多层网络的损失曲面

本文研究了全连接前馈神经网络的非凸损失函数与球形自旋玻璃模型哈密顿量之间的联系，并通过随机矩阵理论的结果来解释网络的复杂性和局部极小值的位置分布，利用计算机模拟和数学模型对结果进行了验证和验证。

Nov, 2014

低成本多层网络的景观连通性解释

在深度网络的损失面中模式连接是一个令人惊讶的现象，本文通过数学解释为阐述这个现象提供了理论支持，并通过实验进行验证。

Jun, 2019

基于 Betti 数的损失面拓扑描述

通过对多层神经网络中的损失函数的拓扑度量，研究比较深层和浅层架构的复杂性以及其受隐藏单元数量、训练模型和激活函数的影响，揭示了一些特定情况下，添加正则项或在前馈网络中实施跳跃连接等对损失拓扑没有影响。

Jan, 2024

基于分布的权重矢量低损耗连接算法

过参数化网络损失面的子级集合是连接的，本文描述和比较了一系列用于连接两个低损失点的低损失曲面的方法，其中大多数方法基于 “宏观” 分布假设，一些对待连接的点的详细属性不敏感，需要先训练全局连接模型来应用于任意一对点，方法的准确性通常与其复杂性和端点细节的敏感性相关。

Aug, 2020

测地模式连接性

使用信息几何的框架，我们假设在参数化分布的空间中的最短路径（称为测地线）对应于损失景观中的模式连接路径，并提出了一种算法来近似这些测地线并证明它们实现了模式连接的功能。

Aug, 2023

深度神经网络的损失曲面包含每个低维模式

通过多点优化法，从神经网络的损失曲面中发现任意二维二进制模式，证明这是深度普适型逼近器的普遍属性，我们的分析不仅预测了所有这些低维度模式的存在，而且还预测了容易找到这些模式的属性，且它们可以适用于其他数据集。

Dec, 2019

通过神经元对齐优化模式连接性

本文提出了一种更一般的框架来研究对称性对深度神经网络损失曲面中模式连通性的影响，该框架考虑了网络权重置换的影响，提出了称为神经元对齐的廉价启发式方法来近似最优置换，从而证明了该方法在模式连通性方面的实际效果优越。

Sep, 2020