神经网络通过梯度特征学习的可证实保证

Oct, 2023

神经网络通过梯度特征学习的可证实保证

Provable Guarantees for Neural Networks via Gradient Feature Learning

Zhenmei Shi, Junyi Wei, Yingyu Liang

TL;DR神经网络理论分析不足，该研究提出了一个基于梯度的特征学习分析框架，应用于混合高斯函数和奇偶函数等问题，并揭示了网络学习现象与特征学习的关系。

Abstract

neural networks have achieved remarkable empirical performance, while the current theoretical analysis is not adequate for understanding their success, e.g., the Neural Tangent Kernel approach fails to capture th

neural networks theoretical analysis feature learning gradient descent network learning

发现论文，激发创造

三层神经网络非线性特征学习的可证明保证

本文研究了三层神经网络在特征学习方面的优势，证明了其比两层神经网络具有更丰富的特征学习能力，并提出了一个通用的定理，以限定实现低测试误差所需的样本复杂度和宽度。

May, 2023

梯度下降如何学习特征 - 正则化双层神经网络的局部分析

通过本地收敛分析，该论文展示了梯度下降通过精心正则化的目标函数在损失降至一定阈值以下后能够捕捉到真实方向，从而证明了特征学习不仅发生在初始梯度步骤，也可能发生在训练结束时。

Jun, 2024

神经网络中带全局收敛保证的特征学习

该研究通过梯度流优化模型，研究宽神经网络中的特征学习和训练损失收敛问题，证明了一定条件下训练损失会以线性速率收敛于零，并展示了该模型的学习特性和推广能力。

Apr, 2022

神经网络的自适应切线特征视角

为了更好地理解神经网络中的特征学习，我们提出了一个在切线特征空间中理解线性模型的框架，其中特征在训练过程中被允许进行转换。我们考虑特征的线性变换，得到了一个在参数和变换上具有双线性插值约束的联合优化问题。我们证明了这个优化问题等价于一个线性约束优化问题，具有结构化正则化，鼓励近似低秩解。通过专门研究神经网络结构，我们深入了解了特征和核函数如何变化，为当目标函数使用切线特征很难表示时的核对齐现象提供了额外的细微差别。除了在一个简单的回归问题上验证我们的理论观察之外，我们还通过实验证明，在 MNIST 和 CIFAR-10 上，切线特征分类的自适应特征实现的样本复杂性比固定切线特征模型低一个数量级。

Aug, 2023

两层神经网络中一次梯度步骤的非线性特征学习理论

通过分析两层全连接神经网络中梯度下降和岭回归的步骤，证明采用学习率随样本大小增长的训练方法可以引入多个一阶秩分量，分别对应特定的多项式特征，进而改善神经网络的学习效果。

Oct, 2023

神经特征学习的几何框架

基于神经特征提取器和图形结构，我们提出了一个新颖的学习系统设计框架，并使用特征空间中的几何结构进行学习问题的建模。我们通过嵌套技术设计学习算法，从数据样本中学习最佳特征，进而应用于现成的网络架构和优化器，同时我们还探讨了多元学习问题，包括条件推理和多模态学习，以及它们与经典方法的联系。

Sep, 2023

图神经网络从结构信息中可得证明的益处：视作特征学习角度

本研究旨在通过研究梯度下降训练中神经网络中的特征学习理论中图卷积的作用，提供了两层图卷积网络与两层卷积神经网络之间的信号学习和噪声记忆的不同表征，发现图卷积显着增强了对手 CNN 的良性过拟合的范围，并且在梯度下降训练后， GNNs 和 MLPs 在特征学习和泛化能力方面存在重大差异，这一结论在我们的实证模拟中得到了进一步证实。

Jun, 2023

神经网络中的特征提取机制揭示

我们提出了一种基于神经切向核函数（NTKs）的理论方法来研究神经网络在捕捉精确知识方面的潜在机制，并发现激活函数的选择会影响特征提取，此外我们还发现自注意力模型和 CNN 模型在学习 n 元语法方面的局限性，而基于乘法的模型则在该领域表现出色。我们的研究提供了对大型语言模型基本组件在角色和能力方面的深入理解，从而推动对这些复杂系统的更广泛理解。

Oct, 2023

基于双层 ReLU 神经网络的可证明多任务表示学习

通过简单的梯度下降学习算法，在二层 ReLU 神经网络中进行多任务学习，可证明在多任务学习中也发生了特征学习。

Jul, 2023

两层神经网络和随机特征模型在梯度下降动态下优化和泛化属性的比较分析

本研究对二层神经网络模型的梯度下降动态进行了较全面的分析，并考虑了在更新两个层的参数时，一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下，梯度下降动态可以快速地达到零训练损失，无论标签的质量如何。此外，证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值，建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。

Apr, 2019