本研究提出了三种算法,用于将一个模型的单元重新排列以与参考模型对齐,以便在权重空间中合并两个模型,实验结果表明了单一流域现象在各种模型架构和数据集中的存在,并讨论了模型宽度和训练时间与模式连通性的相关现象,同时证明了单流域理论的一个反例。
Sep, 2022
通过研究深度神经网络的损失函数平面的同构性,我们证明了深度集合优于贝叶斯神经网络在提高准确度和对数据集变化的鲁棒性方面,并发现随机初始化的权重可以探索不同的函数空间而产生更多样的结果。
Dec, 2019
本文证明了从窄网络到宽网络的过渡存在一个相变,窄网络存在次优盆地(sub-optimal basins),而宽网络不存在。具体地,采用连续激活函数的一类宽网络损失曲面没有亚优盆地,但是对于宽度低于阈值的大类网络,存在不是全局最小值而是严格局部最小值的情况。
Dec, 2018
本文探讨了在 ReLU 神经网络中,通过随机初始化的方式初始参数,研究与之相关的非凸优化函数的几何结构,寻找全局最小点和小的最小目标价值。结果表明,相较于小型神经网络,大型神经网络更容易满足这些性质。
Nov, 2015
本文提出了基于多样性损失函数的神经网络集成方法,以适应多模态数据的建模,并证明了其在数据分布变化和识别未知数据方面的显著性能提升。
Mar, 2020
通过引入辅助引导变量,我们提出了一种简单的联合分布,该方法通过对后验采样偏置,使采样更多地集中在平坦区域,从而实现了更高效的后验采样以及更好的性能表现。
Oct, 2023
研究表明,深度神经网络模型具有很好的泛化能力,其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。
Jun, 2017
SGD 解决方案、模型再聚类体制、模型平均化、匹配算法和剪枝技术是该篇论文的关键词和主要研究领域。
Feb, 2024
卷积神经网络在表征多样的动力系统吸引盆复杂性和不可预测性方面的有效性进行了展示。与传统方法相比,这种新颖的方法能够以最佳方式探索动力系统的不同参数,而传统方法在表征多个吸引盆时具有计算成本较高的问题。此外,我们的研究还比较了不同卷积神经网络架构在此任务中的性能,展示了我们提出的表征方法即使使用过时的架构也优于传统方法。
Sep, 2023
本研究利用一种新的几何洞见发现了深度神经网络损失函数的凸性及优化过程中损失函数可达到极值的简单曲线,提出了一种利用此洞见的训练方法,并提出了一种名为快速几何融合(FGE)的新的集成方法,在 CIFAR-10、CIFAR-100 和 ImageNet 三个数据集上,与最新的快照集成法相比取得了更好的性能。
Feb, 2018