神经网络通过梯度特征学习的可证实保证
本文研究了三层神经网络在特征学习方面的优势,证明了其比两层神经网络具有更丰富的特征学习能力,并提出了一个通用的定理,以限定实现低测试误差所需的样本复杂度和宽度。
May, 2023
通过本地收敛分析,该论文展示了梯度下降通过精心正则化的目标函数在损失降至一定阈值以下后能够捕捉到真实方向,从而证明了特征学习不仅发生在初始梯度步骤,也可能发生在训练结束时。
Jun, 2024
该研究通过梯度流优化模型,研究宽神经网络中的特征学习和训练损失收敛问题,证明了一定条件下训练损失会以线性速率收敛于零,并展示了该模型的学习特性和推广能力。
Apr, 2022
为了更好地理解神经网络中的特征学习,我们提出了一个在切线特征空间中理解线性模型的框架,其中特征在训练过程中被允许进行转换。我们考虑特征的线性变换,得到了一个在参数和变换上具有双线性插值约束的联合优化问题。我们证明了这个优化问题等价于一个线性约束优化问题,具有结构化正则化,鼓励近似低秩解。通过专门研究神经网络结构,我们深入了解了特征和核函数如何变化,为当目标函数使用切线特征很难表示时的核对齐现象提供了额外的细微差别。除了在一个简单的回归问题上验证我们的理论观察之外,我们还通过实验证明,在 MNIST 和 CIFAR-10 上,切线特征分类的自适应特征实现的样本复杂性比固定切线特征模型低一个数量级。
Aug, 2023
通过分析两层全连接神经网络中梯度下降和岭回归的步骤,证明采用学习率随样本大小增长的训练方法可以引入多个一阶秩分量,分别对应特定的多项式特征,进而改善神经网络的学习效果。
Oct, 2023
基于神经特征提取器和图形结构,我们提出了一个新颖的学习系统设计框架,并使用特征空间中的几何结构进行学习问题的建模。我们通过嵌套技术设计学习算法,从数据样本中学习最佳特征,进而应用于现成的网络架构和优化器,同时我们还探讨了多元学习问题,包括条件推理和多模态学习,以及它们与经典方法的联系。
Sep, 2023
本研究旨在通过研究梯度下降训练中神经网络中的特征学习理论中图卷积的作用,提供了两层图卷积网络与两层卷积神经网络之间的信号学习和噪声记忆的不同表征,发现图卷积显着增强了对手 CNN 的良性过拟合的范围,并且在梯度下降训练后, GNNs 和 MLPs 在特征学习和泛化能力方面存在重大差异,这一结论在我们的实证模拟中得到了进一步证实。
Jun, 2023
我们提出了一种基于神经切向核函数(NTKs)的理论方法来研究神经网络在捕捉精确知识方面的潜在机制,并发现激活函数的选择会影响特征提取,此外我们还发现自注意力模型和 CNN 模型在学习 n 元语法方面的局限性,而基于乘法的模型则在该领域表现出色。我们的研究提供了对大型语言模型基本组件在角色和能力方面的深入理解,从而推动对这些复杂系统的更广泛理解。
Oct, 2023
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019