神经网络的局部弹性

Oct, 2019

The Local Elasticity of Neural Networks

Hangfeng He, Weijie J. Su

TL;DR本论文介绍神经网络的局部弹性现象，通过模拟实验，我们发现这种现象在具有非线性激活函数的神经网络中经常出现，而在线性分类器中则不是这样。我们使用神经切向核提供一种几何解释，并利用局部弹性获得特征向量之间的成对相似度测量，可以与 K-means 一起用于聚类。在 MNIST 和 CIFAR-10 数据集上进行的聚类算法的有效性进一步支持了神经网络的局部弹性假设。

Abstract

This paper presents a phenomenon in neural networks that we refer to as \textit{local elasticity}. Roughly speaking, a classifier is said to be locally elastic if its prediction at a feature vector $\bx'$ is \tex

发现论文，激发创造

神经网络泛化中的一种新视角——刚度

本文提出并研究了神经网络刚度的概念并探讨了其与泛化的关系，研究表明刚度与学习率相关，同时在MNIST、FASHION MNIST、CIFAR-10/100等数据集上进行了实验。

Jan, 2019

神经损失景观的局部几何的新兴特性

本文通过实验和理论研究了神经网络的波动，发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。

Oct, 2019

对分类器分类：剖析神经网络的权重空间

本文介绍了一个关于神经网络权重的实证研究。通过采样多种不同神经网络分类器的训练变化，使用机器学习方法从权重空间中提取和分析信息，特别地构建了一些新型的深度元分类器，用于检测通过超参识别并在优化过程中编码为权重的模式，从而提供了一种新颖和互补的可解释AI视角，并释放了一个神经权重空间（NWS）数据集，以促进进一步研究。

Feb, 2020

大型非线性模型的线性性：何时和为什么切线核是恒定的

揭示了某些神经网络在宽度接近无穷大时，出现线性转换的显著现象，并通过Hessian矩阵的归一化来解释其原因。此外，还指出该现象并非宽神经网络的普遍特性。

Oct, 2020

局部弹性稳定性更好的泛化界限

本文提出一种基于局部弹性的弱稳定性概念，用以提供具有指数通用性限制条件的机器学习算法算法稳定性，比常见的分布无关的最坏损失情况敏感性更具参考价值，该概念在支持向量机、最小二乘回归和随机梯度下降等模型中具有受限制的情况下比统一稳定性提供更紧的泛化限制条件。

Oct, 2020

神经网络中从损失平坦性到压缩表示的简单连接

深度神经网络的泛化能力在参数空间的损失景观形状和特征空间（即单位活动的空间）的表示流形结构两个不同的方法中已经被研究，但很少一起研究并显式连接。我们提出了一个简单的分析，建立了它们之间的联系，并展示了表明在深度神经网络的学习的最后阶段，神经表示流形的体积压缩与参数优化过程中所探索的最小值周围的损失的平坦性相关的结果。

Oct, 2023

从宏观角度解密神经网络的懒惰训练

通过研究神经网络训练动态，探究权重参数在初始化过程中引入的各种因素之间的复杂相互作用，我们发现梯度下降可以快速将深层神经网络驱动至零训练误差，不论具体的初始化方案如何，只要输出函数的初始尺度超过一定阈值。这个区域被称为theta-lazy区域，突出了初始尺度在神经网络训练行为中的主导影响，同时我们还发现这个theta-lazy区域与神经切线核（NTK）范式有相似之处，但条件宽松。通过严格的分析，我们揭示了初始尺度kappa在神经网络训练动态中的关键作用。

Apr, 2024

懒人（NTK）和富人（μP）的领域：温和教程

现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导，解释了以下事实：为了有效地训练宽网络，在选择学习率和初始权重大小等超参数上只有一个自由度。这个自由度控制训练行为的丰富性：宽网络至少以类似核机器的方式进行懒惰训练，最多则在所谓的μP区域表现出特征学习。本文解释了这种丰富性尺度，将最近的研究结果综合为一个连贯的整体，并提供支持我们的论点的实证证据。通过这样做，我们希望进一步研究丰富性尺度，因为它可能是发展实际深度神经网络特征学习的科学理论的关键。

Apr, 2024

时间弹性神经网络

我们介绍并详细说明了一种非典型的神经网络架构，称为时间弹性神经网络（teNN），用于多变量时间序列分类。与传统神经网络架构相比，该创新之处在于它明确地融合了时间弯曲的能力，以及一种新的注意力考虑方式。此外，该架构能够学习一种丢弃策略，从而优化其自身架构。通过实验证明，应用于teNN训练的随机梯度下降是非常有效的。在正确选择了一些关键的元参数的情况下，收敛通常是平稳且迅速的。通过首先减少所需的参考时间序列数量，即所需的teNN单元数量，我们在保持良好准确率的同时，获得了可观的可扩展性收益。其次，我们证明了teNN在训练过程中成功地减少了每个单元内所需的神经元数量。最后，我们展示了在训练后对激活和注意力矩阵以及参考时间序列的分析提供了解释和解释分类结果的相关信息。通过进行约30个多样化的多变量数据集的比较研究，我们发现teNN获得了与最先进技术相媲美的结果，特别是与混合LSTM和CNN架构的网络相似。

May, 2024

梯度下降如何学习特征 - 正则化双层神经网络的局部分析

通过本地收敛分析，该论文展示了梯度下降通过精心正则化的目标函数在损失降至一定阈值以下后能够捕捉到真实方向，从而证明了特征学习不仅发生在初始梯度步骤，也可能发生在训练结束时。

Jun, 2024