神经特征学习中的帕累托前沿：数据、计算、宽度和运气

Sep, 2023

神经特征学习中的帕累托前沿：数据、计算、宽度和运气

Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and Luck

Benjamin L. Edelman, Surbhi Goel, Sham Kakade, Eran Malach, Cyril Zhang

TL;DR该研究调查了深度学习在计算统计差距存在的情况下的算法设计选择。通过考虑离线稀疏奇偶学习，一种多层感知器的梯度训练的统计查询下界，我们展示了稀疏初始化和增加网络宽度在样本效率方面的显著改进，以及合成稀疏奇偶任务对于需要轴对齐特征学习的真实问题的代理用途。

Abstract

This work investigates the nuanced algorithm design choices for deep learning in the presence of computational-statistical gaps. We begin by considering offline →

deep learning computational-statistical gaps sparse parity learning multilayer perceptron sample efficiency

发现论文，激发创造

深度学习的隐性进展: SGD 学习计算限制近似对称问题

本文通过学习一个 $k$ 位稀疏的 $n$ 位奇偶性来探索大规模数据集、模型规模和训练时间对模型训练计算问题的影响。研究发现神经网络可以成功地学会稀疏的奇偶性，并在训练过程中存在非连续的相变点。理论分析表明，这些观察结果不是通过 Langevin-like 机制解释的，而是通过在人口梯度中的 Fourier 间隙逐渐放大稀疏解来实现。

Jul, 2022

懒人（NTK）和富人（μP）的领域：温和教程

现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导，解释了以下事实：为了有效地训练宽网络，在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性：宽网络至少以类似核机器的方式进行懒惰训练，最多则在所谓的 μP 区域表现出特征学习。本文解释了这种丰富性尺度，将最近的研究结果综合为一个连贯的整体，并提供支持我们的论点的实证证据。通过这样做，我们希望进一步研究丰富性尺度，因为它可能是发展实际深度神经网络特征学习的科学理论的关键。

Apr, 2024

连续稀疏化在中奖彩票中的应用

该研究提出了一种基于连续稀疏化的新型算法，用于寻找高效的、稀疏的深度神经网络模型。实验结果表明，在修剪和寻找稀疏子网络方面，我们均超过了现有方法的最新技术水平，包括 VGG 在 CIFAR-10 上训练和 ResNet-50 在 ImageNet 上训练等。

Dec, 2019

彩票假说：寻找稀疏的可训练神经网络

该文在进行神经网络剪枝过程中提出了 “彩票票假设”，即在一个密集、随机初始化的前馈神经网络中存在一些幸运的子网络，当其被隔离地训练时，可以在相似的迭代次数内达到与原始网络相当的测试准确性，通过一系列实验验证了该假设的正确性和这些幸运初始化的重要性。

Mar, 2018

通过边缘最大化实现特征的出现：代数任务中的案例研究

理解神经网络学习到的内部表示是机器学习科学中的一个基石挑战。本文探讨了一个互补问题，即为什么网络会采用特定的计算策略，通过代数学习任务对用于这些任务的网络学到的特征进行了理论分析，证明了训练网络利用傅立叶特征进行模块化加法，以及使用与不可约群表示对应的特征来执行一般群的组合，与 Nanda 等人和 Chughtai 等人的实证观察密切一致。

Nov, 2023

从贝叶斯稀疏到门控循环神经网络

本文指出，关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构，从而导致了一种新的稀疏估计系统，当授予训练数据时，可以在其他算法失败的方案中高效地估计最优解，包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。

Jun, 2017

始终稀疏训练：引导随机探索下的连接增长

现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法，具有一流的大规模和更稀疏模型的线性时间复杂度，并通过引导随机探索算法改善了先前稀疏训练方法的准确性。

Jan, 2024

稀疏转移学习中的优胜彩票算法

本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究，通过使用无结构量级剪枝来发现最优子网络，实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。

May, 2019

深度学习的可证明限制

这篇论文证明了深度学习在低交叉可预测性函数分布上的失败，提出了算法约束和跨预测性的概念，并利用信息度量来限制统计间距离，探讨了神经网络、优化误差和算法分析的相关问题。

Dec, 2018

敏感性感知的混合精度量化和宽度优化：通过基于聚类的树结构 Parzen 估计实现深度神经网络的优化

通过引入创新的搜索机制，基于深度学习模型的优化方法，在神经网络设计方面取得了重要突破。该方法有效选择了每个神经网络层的最佳比特宽度和层宽，提高了深度神经网络的效率。通过采用基于 Hessian 的修剪方法来减少搜索空间，并利用基于聚类的树状 Parzen 估计器构建代理模型，对各种架构进行快速的探索和定位。在多个数据集上的严格测试表明，该方法相对于现有方法具有明显的优势，模型大小减少了 20% 且准确度不降低。相较于现有的最佳搜索策略，该方法的搜索时间减少了 12 倍。因此，该方法为神经网络设计优化提供了快速、高效的解决方案，推动了可扩展深度学习解决方案的潜力。

Aug, 2023