- 神经网络模定域排列的线性连通性
神经网络通常表现出置换对称性,这会导致网络损失地形的非凸性,因为线性插值两个置换的网络版本通常会遇到较高的损失障碍。最近的研究认为,置换对称性是非凸性的唯一来源,这意味着如果适当进行置换,训练网络之间基本上没有这样的障碍。在这项工作中,我们 - M-HOF-Opt: 多目标分层输出反馈优化通过乘数引起的损失地貌调度
通过引入基于概率图模型的联合模型参数和乘子进化过程,以及基于超体积的似然度量,该研究提出了一种多目标层次输出反馈训练方案,用于处理神经网络参数化损失函数中的多项难题,并且还包含了对控制器参数进行序贯决策的最优控制问题,以及通过每个损失项的输 - 扁平化远程损失景观对跨领域少样本学习
通过扩展损失景观的分析范围和引入一种新的归一化层,本研究提出了一种用于提高跨领域少样本学习性能的方法,并在 8 个数据集上的实验证实了其优越性。
- 大学习率训练的不稳定性:一个损失景观视角
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
- 神经网络激活函数的经验损失景观分析
此研究对与神经网络有关的损失景观进行了实证调查,发现修正线性单元产生最凸的损失景观,而指数线性单元产生最不平坦的损失景观,且表现出优越的泛化性能。
- 神经网络优化路径的简单几何
本研究探讨了神经网络中采样梯度沿优化路径的基本几何特性,发现这些特性在大多数训练期间保持稳定动态,并提供了线性收敛的理论保证和反映经验实践的学习率计划。
- MM重新考虑排列对称性用于合并来自不同数据集的模型
本文研究了不同数据集之间的模型合并,并通过理论和实证分析发现,不同数据集之间的合并模型准确性下降更为显著,其不同的损失景观使得模型合并更加困难。同时,我们还表明,使用数据集进行模型合并需要高准确性,而凝缩的数据集可以作为原始数据集的替代品进 - ICLR物理启发的机器学习模型可解释性
通过利用物理学中的能量景观方法,在机器学习模型中识别有意义的特征来解释模型决策,为使机器学习在医学、网络安全、自动驾驶等领域得到广泛采用提供了一种新途径。
- ICML机制模式连通性
本文研究神经网络损失景观的模式连接性,提出了机制相似性的定义,并证明缺乏线性连接意味着两个模型使用不同的机制进行预测。作者还介绍了一种名为基于连接性的微调方法用于正确修改一个模型的机制,以减少对于虚假属性的依赖。
- Omnigrok: 超越算法数据的理解
通过分析神经网络损失景观和表示学习等机制,我们提出了 LU 机制,解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因,并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。
- ICLR自监督学习中的损失函数模型
通过对自监督学习损失地景的理论推导和分析,揭示了其维度崩溃的原因和机制,探讨了正规化和偏差的影响,并阐明了维度崩溃的益处及其对于自监督学习数据失衡鲁棒性的影响。
- ICLR视觉 Transformer 如何工作?
本文揭示了多头自注意力机制(MSAs)成功的原因及其背后的模型特性,提出了替代 CNN 模型的 AlterNet 模型,并证明了其在小规模及大规模数据集上的优越性。
- 增量学习中更好的可塑性 - 稳定性平衡:一种简单的线性连接器
本文章提出了一种基于模式连通性的损失地貌的方法,可以在不保留旧样本的情况下,实现更好的可塑性 - 稳定性权衡,该方法通过将两个独立优化的最优值连接起来实现一个有意义的平衡,我们在几个基准数据集上进行了评估,结果表明我们的简单方法可以提高模型 - ICLR丢失景观和对抗鲁棒性中的桥接模式连接
本文提出使用模态连通性来研究深度神经网络的对抗鲁棒性,并提供了提高对抗鲁棒性的新方法。实验结果表明,使用少量的真实数据学习到的路径连接可以有效地减轻对抗攻击的影响,同时在干净数据上保持原有的准确性。同时,该研究还使用模态连通性来对比分析正常 - 过参数非线性系统和神经网络中的损失景观和优化
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的 PL$^*$ 条件密切相关,这解释了(S)GD 对全局最小值的收敛,并提出了一个放松 PL - 通过可视化理解泛化
本研究探讨神经网络的泛化能力及其背后的原因,通过可视化方法探寻损失景观的几何形状和高维度导致的最优化问题,旨在更加直观地解释泛化现象。