- SGD 在高维度中的梯度剪裁动力学
通过研究剪裁在流式随机梯度下降中的应用,发现剪裁在某些噪声环境中可以提供性能优势,并讨论了高维剪裁与神经网络训练之间的联系。
- 在连续空间上学习条件分布
研究的主题是在多维单位盒子上基于样本的学习条件分布,采用聚类方法,在特征空间中的变化查询点附近聚类数据来创建目标空间的经验度量。聚类方案包括基于固定半径球和最近邻的方法,通过收敛速率的上界确定最佳的半径和邻居数量。通过在实践中进行经验分析, - ICML迈向可解释性的深度本地学习与渐进梯度调和
本文研究了神经网络训练的局部学习方法,并提出了一种梯度协调的局部训练策略,旨在减少内存消耗并提高性能。
- 神经网络训练的自适应多重最优学习因子
本文介绍了一种新颖的神经网络训练方法,通过动态地调整学习因子的数量来解决确定最佳学习因子数量的挑战,从而提高训练效率和准确性。该方法还引入了基于目标函数曲率的权重分组技术和大型 Hessian 矩阵的压缩技术。实验结果表明,与 OWO-MO - 稳定性边界训练的原因 —— 分层雅可比对齐
用指数欧拉求解器训练神经网络,以准确近似真实的梯度下降动态系统,证明了 Hessian 矩阵的锐度增加是由于网络的逐层 Jacobian 矩阵对齐导致的,而对齐程度与数据集大小呈幂律关系,相关性系数在 0.74 到 0.98 之间。
- 神经网络超参数优化中的提前弃用一轮高效方法
通过研究一些常用的丢弃技术,如 successive halving 和 learning curve extrapolation,我们发现这些技术与使用常数数量的轮次进行训练后的丢弃策略相比,几乎没有添加价值。我们称之为 i-Epoch - 分布式深度学习中的前向 - 前向
通过分布式计算环境中采用 Geoffrey Hinton 的 Forward-Forward(FF)算法来增强神经网络的训练,该论文介绍了一种新的分布式深度学习方法。该方法利用双向传递策略进行前向传递,与传统的前向和后向传递方法有显著的区别 - 训练早期对于超出分布泛化的影响
研究早期神经网络训练对神经网络在分布内任务上的性能有显著影响,但对于神经网络在分布外任务上的泛化性能的影响尚未得到充分研究。本研究使用渐进解冻(即逐渐解冻训练参数)的方法调查学习动态和神经网络训练早期的分布外泛化关系,发现渐进解冻对分布内结 - 通过隐式 - 显式时间步进方法改进自适应矩估计(ADAM)随机优化器
这项研究提出了一种基于隐式 - 显式欧拉离散化的一阶 Adam 算法,并通过对普通微分方程的高阶隐式 - 显式方法求解,得到了一种优于经典 Adam 算法的新型神经网络训练优化算法。
- 近似似然比:增强神经网络训练的正向唯一和并行框架
通过利用自然的并行性和高性能训练策略,介绍了似然比方法在神经网络训练中的潜力及其逼近技术在梯度估计中的有效性。
- Pencil: 私密且可扩展的协作学习,无需无合谋假设
Pencil 是第一种为协作学习提供数据隐私、模型隐私和可扩展性的私有训练框架,无需依赖于非勾结假设。
- ICLR控制方差的自适应采样高效反向传播
通过使用采样算法进行神经网络训练,我们引入了一种方差控制的自适应采样(VCAS)方法,该方法可以在数据和权重梯度计算过程中使用细粒度的分层重要性采样和杠杆得分采样,以加快训练过程并降低计算量。通过在多个任务中进行评估,我们发现 VCAS 可 - ICLR基于专家模型的物理约束扩展
通过使用 Mixture-of-Experts (MoE),我们开发了一种可扩展的方法来强制执行硬物理约束,以增强神经 PDE 求解器在预测挑战性非线性系统动力学方面的准确性,并改善训练稳定性以及在训练和推断阶段所需的计算时间。
- OptEx:利用近似并行化迭代加速一阶优化
我们提出了一种名为 OptEx 的方法,通过利用并行计算来提高 FOO 的效率,使用核化梯度估计来进行迭代预测,从而实现了迭代的并行化,并证明了核化梯度估计的可靠性和基于 SGD 的 OptEx 的迭代复杂度,同时通过大量实证研究验证了 O - 神经网络可训练性的边界是分形的
通过实验,我们发现神经网络的超参数边界在所有测试配置中在超过十个数量级的尺度上呈现分形特征。
- 稀疏双谷操作
该论文研究了双下降现象在两层神经网络中的作用,重点关注了 L1 正则化和表示维度的作用。研究探讨了稀疏双下降这一替代的双下降现象,并强调了模型复杂度、稀疏性和泛化之间的复杂关系,建议进一步研究更多样化的模型和数据集。这些发现有助于深入理解神 - PBES:基于主成分分析的示例采样算法的连续学习
我们提出了一种新颖的示例选择方法,基于主成分分析(PCA)和中值采样,并在类增量学习的环境中使用神经网络训练方案。该方法避免了数据中的异常值问题,且在各种增量机器学习模型中易于实现和使用。它还可以作为一种独立的采样算法使用,并且与最先进的方 - 温度平衡、逐层权重分析与神经网络训练
该论文提出了 TempBalance,一种简单而有效的逐层学习率方法,基于 Heavy-Tailed Self-Regularization (HT-SR) 理论,并展示了使用 HT-SR 相关指标来指导模型训练中的温度调度和平衡,从而改善 - 使用较大模型进行初始化
权重选择为在资源受限环境中训练小型模型提供一种新的方法,通过从预训练的大型模型中选择一部分权重,将知识迁移到更小的模型上,从而显著提升小型模型的性能并减少训练时间。
- 矩阵和线性映射的 Frobenius 型范数和内积及其在神经网络训练中的应用
该研究通过对线性映射或矩阵的 Frobenius norm 和内积进行了深入研究,确定了它们与定义域和值域空间内积的依赖关系,并表明经典的 Frobenius norm 只是更一般的 Frobenius-type norms 中的一个特例。