本文研究了增加批次大小对神经网络训练时间以及模型性能的影响,并发现不同的工作负载之间存在巨大的差异,并且不发现增加批次大小会降低模型的性能表现。
Nov, 2018
通过对「边缘混沌」的理论分析,研究了深度神经网络中各参数的选取对模型训练加速和性能提升的影响。
Feb, 2019
研究分析使用大型神经网络架构和随机特征回归的深度学习在高维数据集的性能表现,并发现混合非线性函数可提高训练与测试性能,为近似核方法或神经网络架构设计提供了参考。
Dec, 2019
研究表明神经网络在初始化阶段进行剪枝是可能的,但是现有方法(SNIP、GraSP、SynFlow和magnitude pruning)表现不如训练后的magnitude pruning,可能是因为这些方法的权重剪枝决策可以通过每层选择剪枝权重比例来替换,这反映出底层剪枝启发式算法及初始化阶段进行剪枝的挑战。
Sep, 2020
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021
本文实验性地研究了神经网络优化的不确定性,证明了所有不确定性来源都对模型多样性具有类似的影响,这是因为模型训练的不稳定性是决定性的因素,并提出了两种减少波动性的方法。
Mar, 2021
模型训练中随机性的影响,如何解释数据顺序和初始化的差异,以及如何解读训练动态和不同轨迹所特征的相变,使用隐马尔可夫模型对神经网络训练过程进行建模,研究相变和减速收敛的潜在“绕道”状态。
Aug, 2023
这篇文章介绍了关于神经网络的统计理论,从三个角度进行了综述:非参数回归或分类中关于神经网络过度风险的结果,神经网络的训练动力学以及生成模型中的最新理论进展。
Jan, 2024
本研究调查了各种随机化技术对深度神经网络(DNNs)的影响,发现添加噪音和随机掩码梯度更新等随机化方法有助于减少过拟合和增强泛化能力。使用粒子群优化器(PSO)进行超参数优化,对MNIST、FASHION-MNIST、CIFAR10和CIFAR100数据集的超过30,000个配置进行评估,结果显示数据增强和权重初始化的随机性是主要的性能因素。相关性分析表明不同的优化器偏好不同的随机化类型。GitHub上提供了完整的实现和数据集。
Apr, 2024
神经网络过拟合问题涉及超参数,随机梯度下降以及网络架构等因素,本文通过研究随机和经优化的网络来解析由优化和架构选择引起的泛化问题,实验证明对于增加的宽度,超参数化对泛化有益,并且这一益处源于随机梯度下降的偏差,而不是网络架构导致的;相反,对于增加的深度,超参数化对泛化不利,但随机和经优化的网络表现相似,因此这可以归因于架构偏差。
Jul, 2024