神经特征学习中的帕累托前沿:数据、计算、宽度和运气
本文通过学习一个 $k$ 位稀疏的 $n$ 位奇偶性来探索大规模数据集、模型规模和训练时间对模型训练计算问题的影响。研究发现神经网络可以成功地学会稀疏的奇偶性,并在训练过程中存在非连续的相变点。理论分析表明,这些观察结果不是通过 Langevin-like 机制解释的,而是通过在人口梯度中的 Fourier 间隙逐渐放大稀疏解来实现。
Jul, 2022
现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导,解释了以下事实:为了有效地训练宽网络,在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性:宽网络至少以类似核机器的方式进行懒惰训练,最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度,将最近的研究结果综合为一个连贯的整体,并提供支持我们的论点的实证证据。通过这样做,我们希望进一步研究丰富性尺度,因为它可能是发展实际深度神经网络特征学习的科学理论的关键。
Apr, 2024
该研究提出了一种基于连续稀疏化的新型算法,用于寻找高效的、稀疏的深度神经网络模型。实验结果表明,在修剪和寻找稀疏子网络方面,我们均超过了现有方法的最新技术水平,包括 VGG 在 CIFAR-10 上训练和 ResNet-50 在 ImageNet 上训练等。
Dec, 2019
该文在进行神经网络剪枝过程中提出了 “彩票票假设”,即在一个密集、随机初始化的前馈神经网络中存在一些幸运的子网络,当其被隔离地训练时,可以在相似的迭代次数内达到与原始网络相当的测试准确性,通过一系列实验验证了该假设的正确性和这些幸运初始化的重要性。
Mar, 2018
理解神经网络学习到的内部表示是机器学习科学中的一个基石挑战。本文探讨了一个互补问题,即为什么网络会采用特定的计算策略,通过代数学习任务对用于这些任务的网络学到的特征进行了理论分析,证明了训练网络利用傅立叶特征进行模块化加法,以及使用与不可约群表示对应的特征来执行一般群的组合,与 Nanda 等人和 Chughtai 等人的实证观察密切一致。
Nov, 2023
本文指出,关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构,从而导致了一种新的稀疏估计系统,当授予训练数据时,可以在其他算法失败的方案中高效地估计最优解,包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。
Jun, 2017
现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法,具有一流的大规模和更稀疏模型的线性时间复杂度,并通过引导随机探索算法改善了先前稀疏训练方法的准确性。
Jan, 2024
本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究,通过使用无结构量级剪枝来发现最优子网络,实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。
May, 2019
这篇论文证明了深度学习在低交叉可预测性函数分布上的失败,提出了算法约束和跨预测性的概念,并利用信息度量来限制统计间距离,探讨了神经网络、优化误差和算法分析的相关问题。
Dec, 2018
通过引入创新的搜索机制,基于深度学习模型的优化方法,在神经网络设计方面取得了重要突破。该方法有效选择了每个神经网络层的最佳比特宽度和层宽,提高了深度神经网络的效率。通过采用基于 Hessian 的修剪方法来减少搜索空间,并利用基于聚类的树状 Parzen 估计器构建代理模型,对各种架构进行快速的探索和定位。在多个数据集上的严格测试表明,该方法相对于现有方法具有明显的优势,模型大小减少了 20% 且准确度不降低。相较于现有的最佳搜索策略,该方法的搜索时间减少了 12 倍。因此,该方法为神经网络设计优化提供了快速、高效的解决方案,推动了可扩展深度学习解决方案的潜力。
Aug, 2023