神经网络中的特征提取机制揭示

EMNLPOct, 2023

Unraveling Feature Extraction Mechanisms in Neural Networks

Xiaobing Sun, Jiaxi Li, Wei Lu

TL;DR我们提出了一种基于神经切向核函数（NTKs）的理论方法来研究神经网络在捕捉精确知识方面的潜在机制，并发现激活函数的选择会影响特征提取，此外我们还发现自注意力模型和 CNN 模型在学习 n 元语法方面的局限性，而基于乘法的模型则在该领域表现出色。我们的研究提供了对大型语言模型基本组件在角色和能力方面的深入理解，从而推动对这些复杂系统的更广泛理解。

Abstract

The underlying mechanism of neural networks in capturing precise knowledge has been the subject of consistent research efforts. In this work, we propose a theoretical approach based on neural tangent kernels (NTK

neural networks neural tangent kernels activation function feature extraction language modeling

发现论文，激发创造

深度神经网络中可训练性和泛化能力的分离

本文通过分析神经核算法的光谱，提供了对于训练和推广条件的表征，特别地，在讨论极深和宽的神经网络时，发现神经核数仅仅维持有限的数据相关性，并考虑各种网络模型在很大的超参数空间区域内训练集过度拟合而且通常无法推广；同时，与深度神经网络及其卷积形式的全局平均池化相关的理论和实验结果得到了分析。

Dec, 2019

周期激活坐标网络的神经切比雪夫核分析

用神经网络理论分析周期激活神经网络，证明其在视觉任务中表现出优越性能，并对其神经切线核进行了研究，得出周期激活网络在 NTK 视角下比 ReLU 激活网络更好。研究还对网络的记忆能力进行了实证验证，为周期激活神经网络的性质提供了深入理解。

Feb, 2024

卷积网络特征提取行为研究

该研究旨在探讨深度卷积神经网络中的各个特征的辨别力以及应用它们进行知识表示和推理的可能性，并通过统计学方法提供了新的见解和阈值方法来减少特征中的噪声。

Mar, 2017

循环神经切向核

本文介绍并研究了循环神经切线核（RNTK）的性能，证明其能够比其他内核提供更好的性能表现，尤其在处理不同长度输入的情况下表现良好。

Jun, 2020

通用激活函数的快速神经核嵌入

本文提出了一种基于截断埃尔米特函数的方法，用于近似计算任何多层神经网络的高斯过程核（NNGP）和神经切向核（NTK）矩阵，同时克服了其他方法中数据点必须在单位球上的限制，可适用于任何 $R^d$ 空间中的点集。实验证明，相对于精确的卷积神经切向核计算，该方法在 CIFAR-10 数据集上针对具有 5 层结构的 Myrtle 网络的近似计算中实现了 106 倍的加速。

Sep, 2022

神经网络早期学习动力学的出乎意料的简单性

本文证明，对于一类良好行为的输入分布，一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核（NTK）和数据核的仿射变换之间的谱范数差异来赋值。我们还表明，这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在，验证了这一点。

Jun, 2020

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

神经频谱对齐：实证研究

本文通过对神经网络优化过程中的经验性探索，发现神经切向核（NTK）在实际应用中会随着优化而发生重要的和有意义的变化，尤其是它的前几个特征向量会朝向神经网络所学习的目标函数，并成为神经网络输出的基础函数

Oct, 2019

神经网络通过梯度特征学习的可证实保证

神经网络理论分析不足，该研究提出了一个基于梯度的特征学习分析框架，应用于混合高斯函数和奇偶函数等问题，并揭示了网络学习现象与特征学习的关系。

Oct, 2023

线性化神经网络在泛化方面的实际表现

该论文通过对神经网络和它们的线性近似在不同任务上的行为进行系统比较，提供了强有力的实证证据来确定近似的实际有效性，发现网络并不总是表现优于其核近似，并揭示了性能差距很大程度上取决于网络架构、数据集大小和训练任务。此外，研究发现网络在训练过程中出现过拟合的原因是其核的演化。由此揭示了一种新的隐式偏差现象。

Jun, 2021