- 通过模型对齐提高对抗性迁移能力
该研究介绍了一种新的模型对齐技术,旨在改善给定源模型生成可转移对抗干扰的能力。通过减小对齐损失来微调源模型的参数,该损失量化了源模型和另一个独立训练的模型(称为观察模型)之间的预测差异。在 ImageNet 数据集上进行的实验表明,与原始源 - 基于损失景观角度重新审视深度集成用于外部分布检测
通过对损失景观和模态集进行研究,提出了一种新的视角来调查面向损失景观的异常样本检测,重访了深度集成方法以提高异常检测性能和减小变异,并通过广泛的实验证明了模态的高度变化和模态集成在提升异常检测中的优越性。
- 神经网络中从损失平坦性到压缩表示的简单连接
深度神经网络的泛化能力在参数空间的损失景观形状和特征空间(即单位活动的空间)的表示流形结构两个不同的方法中已经被研究,但很少一起研究并显式连接。我们提出了一个简单的分析,建立了它们之间的联系,并展示了表明在深度神经网络的学习的最后阶段,神经 - RSAM:使用黎曼尖锐感知最小化的流形学习
将尖锐感最小化 (SAM) 优化器推广到黎曼流形中,通过融合几何原理于优化中,增强模型的鲁棒性和泛化能力。
- 两层神经网络全局最小值附近的结构和梯度动态
对于两层神经网络在全局最小值附近的损失函数图景进行研究,确定了能够实现完美泛化的参数集,并完全描述了其梯度流动。通过新颖的技术,我们揭示了复杂的损失函数图景的一些简单特征,并揭示了模型、目标函数、样本和初始化对训练动态的不同影响。基于这些结 - 基于同伦的超参数优化方法
使用基于广义加法模型(GAM)替代与同伦优化结合的数据驱动方法,我们提出了一种新的超参数优化方法 HomOpt,以提高现有方法在连续、离散和分类域空间上的性能和效果,并在多个优化技术(如随机搜索、TPE、贝叶斯和 SMAC)应用 HomOp - 损失地形的曲率研究
通过分析嵌入的黎曼流形的微分几何性质,我们研究了损失景观,并展示了与潜在推理相关的几个设置之间的联系。
- 机器学习中的黑洞和损失地貌
本文研究机器学习中的损失函数问题,发现黑洞的熵与网络中的损失函数形成类似的能量景观,提供微观描述黑洞的潜在能量景观,估算随机梯度下降能找到大部分的极小值。
- 划分很重要:用于提升 GNN 性能的扁平极小值方法
研究神经网络中的 “平坦最小值” 问题,确定并探讨适用于非独立同分布数据的方法,并在图神经网络上进行实验,发现使用 “平坦最小值” 方法可以提高 GNN 模型的性能超过 2 个百分点,并推荐实践中使用加权平均技术(EWA)的早期停止时,建议 - 偏强凸性条件下 Nesterov 动量法加速深度神经网络的收敛
本文提出一类新的目标函数,其中只有参数的一个子集满足强凸性,并证明 Nesterov 的动量在这个目标类上实现了加速收敛,其中包括用于深度 ReLU 网络的两种实现方法,这是第一篇证明非平凡神经网络结构加速收敛率的论文。
- MM对抗性训练中为什么会出现干净泛化和鲁棒过拟合
本文针对对抗训练中的干净泛化和鲁棒过度拟合现象,提出了一种理论框架,分析了特征学习过程,证明了部分学习真实特征和完全记忆训练对抗样本中噪声特征的机制,并从损失景观动态的角度验证了我们的理论分析,提出了基于损失景观全局平坦性的鲁棒泛化界限。
- Transformers 学会使用预条件的梯度下降进行上下文学习
通过线性变压器在随机线性回归实例中的全局最小值,我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代,并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。
- 稍微过参数的 ReLU 网络具有良好的损失景观
研究了两层轻度超参数化 ReLU 神经网络对于平方误差丢失函数的一般有限输入数据集的损失景观,使用 Jacobean 的秩来界定局部和全局极小值集合的维度,并利用随机二进制矩阵的结果证明大多数激活模式对应于没有坏的可微局部极小值的参数区域。
- MM神经网络学习轨迹的转移
该研究通过匹配梯度实现新数据集的快速训练,实现了深度神经网络的计算效率提高,进一步分析了不同参数下模式的变化。
- 物理启发式方法探索理解高斯过程
本文研究了高斯过程模型中决策过程的损失景观,着重探讨了 Matern 核函数、紧急点的相关性质以及 $
u$ 的超参数优化问题,为 GP 模型的解释性和性能提升提供了实用的指导。
- PTP:基于扰动正则化的 Prompt Tuning 提升稳定性和性能
研究表明,在自然语言理解任务中,prompt tuning 相比下游微调能更好地利用大型语言模型的优势,但是现有的 prompt tuning 方法在训练时存在不稳定性问题。本文提出了基于扰动的正则化方法,将其应用到 prompt tuni - 浅层神经网络的插值性质
本文研究过参数神经网络的损失曲面的全局最小值的几何结构,证明浅层神经网络可以插值任何数据集,给出全局最小值的 Hessian 矩阵的特征表达式,并提供一种实用的概率方法寻找插值点。
- CVPR通过抽象提升鲁棒图像分类的验证训练
本文提出一种新颖的基于抽象的认证训练方法,它将所有受干扰的图像映射到区间中进行训练,并通过黑盒验证来验证,这种方法可以显着提高训练模型的稳健性。
- 知识是针对微调语言模型的权重空间中的区域
本研究关注于神经网络的权重空间和损失景观,发现细调模型在权重空间中占有良定义区域,通过在模型之间遍历这些区域找到的新模型能够具有与通过细调得到的模型相当甚至更好的性能表现,此研究的结论为高效细调提供了理论依据。
- ICLR对称性,平坦极小值,以及梯度流守恒量
通过使用激活函数的同变性并将其推广到非线性神经网络,找到了一些全局最小值的低误差谷,该方法可以提高鲁棒性,并提供了有关初始化影响的见解。