- 通用优化方法的更快边缘最大化率
本文介绍了一种将常规优化算法转化为在线学习动态的方法,以解决具有多个局部极小值的给定训练目标的最小化,通过在线学习算法的遗憾界来获得隐式偏差率,并比较了梯度下降、镜像下降和最陡下降这三种不同的优化算法的隐式偏差率。
- 线性神经网络层促进单 / 多指数模型学习
本文探讨了超参数神经网络中大于两层的隐式偏差。通过添加线性层,可以优化神经网络的表示成本,并提高实际子空间的准确匹配度与预测性能。
- 通过内在维度相关隐性偏差和对抗性攻击
本论文研究神经网络的偏置问题,通过探讨傅里叶频率与建立对抗攻击的目标频率之间的统计关系,提出了一种新的发现它们之间非线性相关性的方法。实证证明了神经网络在傅里叶空间中的偏置与对抗攻击的目标频率密切相关。
- 在稳定边缘处进行逻辑回归的梯度下降隐含偏差
本文研究了边缘稳定性(EoS)中逻辑回归上梯度下降(GD)的收敛和隐式偏差情况,证明任何恒定步长的非单调 GD 迭代可以在较长时间尺度上最小化逻辑损失,并在最大间隔方向上趋于正无穷,在最大间隔方向的正交补上收敛于最小化强凸势能的固定向量,而 - 使用 SHAP 特征重要性和模糊认知地图测量隐含偏见
本文运用三步方法将特征重要性与隐性偏见相结合,结果说明了仅使用特征重要性作为衡量隐性偏见的方法具有风险,并且受保护特征所受到的偏见程度可能取决于特征的编码方式。
- Deep ReLU 网络拥有令人惊讶的简单多面体
本文利用三角化的方法研究了 ReLU 网络在初始化和梯度下降时的多面体形状,并发现它们相对简单,这是一种新的隐式偏差。此外,本研究还通过界定多面体面的平均数来理论上解释了为什么增加深度不会创建更复杂的多面体,并揭示了网络的简单函数模型和空间 - ICML关于过度参数的双层优化问题中的隐性偏差
探讨了基于梯度的算法对二层次优化的隐含偏差,阐明了冷启动和热启动的两种标准方法,并阐述了这些和其他算法选择(如超梯度逼近)对收敛解决方案或长期行为的影响。此外,还表明了热启动 BLO 获得的内部解可以编码关于外部目标的大量信息,即使外部参数 - ICLR自稳定性:梯度下降在稳定边缘的隐性偏差
本研究发现梯度下降在稳定边缘状态下具有自我稳定性和隐式偏差,可以通过投影梯度下降来描述,并对其在训练过程中的损失、尖锐度和偏差进行了详细预测和验证。
- 梯度下降对重新参数化模型的隐式偏差及其与镜像下降的等价性
本文讨论梯度下降算法中超参数模型中的隐含偏差问题,将超参数模型下的训练轨迹视为不同目标函数上的镜像下降,对该现象在 commuting parametrization 条件下进行了表征,证明了任何 commuting parametriza - 从经过训练的神经网络中重构训练数据
本研究证明在某些情况下,可以通过已经训练好的神经网络分类器的参数,重建训练数据的大部分内容,这对隐私具有负面影响,为此提出了一种新的重建方案。
- ICML探索锐度感知最小化理解
Sharpness-Aware Minimization (SAM) relies on worst-case weight perturbations to improve generalization; we provide a mor - MM无对比自监督学习中预测头机制
本文介绍了一种自监督学习方法,其中相称损失中的负项可以通过添加 prediction head 被消除,理论上和实验上证明了这种方法能够避免维度崩溃现象,并且通过正常的梯度下降可以学习有效表示来替代只学习强特征的偏见。
- 依照所见记录:临床笔记中的种族差异导致模型建议的差异
研究发现机器学习(ML)模型可以从患者病历中识别患者的种族信息,即使这些信息被删除,而人类专家则不能准确预测患者的种族信息。此外,研究还展示了在这些种族信息被删除的病历上训练的 ML 模型可能在临床治疗决策中继续保持现有的偏见。
- 单神经元 ReLU 网络的支持向量和梯度动态
通过研究单神经元 ReLU 网络的梯度流动力学,发现了支持向量的隐式偏差,这在解释 ReLU 网络为何具有良好的泛化能力中起着关键作用;此外,证明了对于二维情况下单个神经元的全局收敛性,并分析了在梯度流的条件下学习权重范数的严格增长。
- 隐性偏见下的选择:交叉约束的优势
通过对交叉应用于选择过程中的特定约束条件,减少隐性偏见所带来的不平等,并提高决策效用。
- ICLR训练不变量和低秩现象:超越线性网络
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性 - ICLRSGD 达到零损失后会发生什么?—— 数学框架
该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果, - ICLR神经坍塌的无约束分层剖析视角
本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型(ULPM),证明了该模型的梯度流收敛到一个最小范数分离问题的临界点,表现出全局最小化时神经坍塌现象。此外,我们还表明,采用交叉熵损失函数的 ULP - 隐式稀疏正则化:深度和提前停止的影响
本文研究了梯度下降的隐式偏差对于稀疏回归的影响,并将关于二次参数化的回归结果扩展到更一般的深度为 N 的网络,结果表明通过提前停止来实现隐式稀疏规则化至关重要,并且对于一般深度参数 N,足够小的初始化和步长可以实现最小化最优的稀疏恢复。
- 隐式偏差对于对角线线性网络 SGD 的影响:随机性的证明性效益
本文研究了随机梯度下降在对角线线性网络上的动态规律,证明了它比梯度下降的解具有更好的泛化性能,并发现收敛速度控制偏见效应的大小,结果支持了结构化噪声可以引起更好泛化性能的理论结论。