- Transformer 中的无限长前缀
研究了前缀学习的学习能力,通过无限长度前缀在一层注意力网络中的表达和解决问题,证实了无限长度前缀学习在注意力中的过度参数化性质和任意小的损失收敛性保证。提出了 NTK-Attention 方法,可实现任意前缀长度的注意力计算,具有参数效率高 - 核心与核心:探索数据结构如何影响神经崩溃
最近,大量文献集中在 “神经坍塌”(NC)现象上,当训练神经网络分类器超过零误差训练点时出现。NC 的核心组成部分是网络最深特征的类内变异性的减少,被称为 NC1。我们提供了一个基于核的分析,不受数据对坍塌程度的影响的简化非约束特征模型(U - 梯度下降如何学习特征 - 正则化双层神经网络的局部分析
通过本地收敛分析,该论文展示了梯度下降通过精心正则化的目标函数在损失降至一定阈值以下后能够捕捉到真实方向,从而证明了特征学习不仅发生在初始梯度步骤,也可能发生在训练结束时。
- CVPR通过数据驱动的频谱视角修剪在视觉模型中发现彩票票据
神经网络修剪能够减少深度学习模型训练之前的计算成本和内存需求。我们专注于该框架,并提出了一种新的初始化修剪算法,利用神经切向核(NTK)理论将稀疏网络的训练动态与密集网络对齐。我们介绍了如何考虑 NTK 光谱中通常被忽视的数据相关部分,并通 - 一种用于替代梯度学习的广义神经切向核
研究了神经网络训练方法中激活函数导数不可用时的问题,提出了代理梯度学习(SGL)的理论基础,并利用神经切向核(NTK)的推广 —— 代理梯度 NTK 分析了 SGL,通过数值实验验证了 SGL 在具有有限宽度和符号激活函数的网络中的有效性。
- 超越模式匹配学习?对 LLM 中的数学理解进行评估
通过评估预训练语言模型对解决问题所需的不同数学技能的领域知识,本文提出了 NTKEval 方法来评估 LLM 概率分布变化的培训,发现当场景中学到的培训以及利用数学知识结构时存在领域理解。相比之下,某些指令调整导致类似的性能变化,无论培训数 - 神经网络中频率偏差动态的理解
传统神经网络在学习过程中存在频率偏差,本研究通过偏微分方程研究了神经网络中错误频率的动力学,进一步证明了通过适当选择初始化权重的分布可以消除或控制频率偏差,并实验证实了该原理也适用于多层神经网络。
- 任意维度球形数据的 NTK 最小特征值的界限
本研究论文提出了一种新方法,通过使用半球变换,基于数据的共线性而不是数据分布和高维设置,计算神经切线核的最小特征值的界限,这对神经网络优化和记忆分析具有重要意义。
- 将先见之明修剪与零阶优化结合:低内存设备上高效的联邦学习
基于神经切向核(NTK)的联邦预见修剪方法可以与联邦 BP-Free 训练框架无缝集成,减少内存使用并提高性能。
- 高维分析揭示保守的锐化和随机稳定边缘
在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量 - MM神经切向核的正性
对于任何非多项式激活函数,神经切向核(NTK)是严格正定的,这个结果与宽神经网络的记忆能力直接相关。
- ICLRPINNACLE: PINN 自适应网格划分和实验点选择
使用数据聚集和选择优化技术,Physics-Informed Neural Networks (PINNs) 与 Neural Tangent Kernel (NTK) 相结合的 PINN Adaptive ColLocation and - 神经网络学习的统一核心
该论文介绍了一种名为 Unified Neural Kernel (UNK) 的方法,用于描述神经网络的学习动态以及参数初始化。通过渐进学习步骤,UNK 核的行为呈现类似于 Neural Tangent Kernel (NTK),而随着学习 - NTK 引导下的少样本类别增量学习
通过对 FSCIL 中神经切向核(NTK)的基本理论研究,我们设计出一种元学习机制,用数学原理来指导扩展网络内的优化过程,确保全局最优的 NTK 收敛和与 NTK 相关的泛化误差,从而提高网络的基础泛化能力。通过自我监督的预训练、课程对齐和 - 无需训练的 NAS 遇上 Vision Transformer:神经切线核视角
本论文探讨了神经切线核(NTK)在没有训练的情况下搜索视觉变换器。通过与先前观察到的基于 NTK 的指标在初始化时能有效预测 CNN 的性能相比较,我们通过实证表明它们在 ViT 搜索空间中的无效性。我们假设 ViT 中的基本特征学习偏好导 - 何时可以使用神经切线核和主成分分析近似广义对比模型?
对比学习是一种从无标签数据中学习表示的范式,在图像和文本数据方面取得了巨大成功。本文分析了双层对比模型的训练动态,并回答了这些模型何时接近于核方法或主成分分析。我们的理论结果可能适用于多层网络。
- 深度神经网络的 “无损” 压缩:一种高维度神经切向核方法
建立在神经切向核 (NTK) 和随机矩阵理论 (RMT) 的最新进展之上,我们提供了一种创新的压缩方法用于宽且全连接的深度神经网络,实现 “无损” 压缩,即压缩后的网络在渐近意义下与原始网络具有相同的 NTK,权重和激活只取值于 {0, ± - NTK 条件下的 LoRA 训练无虚假局部极小值
通过理论分析,在神经切线核(NTK)范式下,我们发现使用低秩适应(LoRA)进行微调有助于消除虚假的局部极小值点,从而使得梯度下降算法可以找到低秩解。
- 周期激活坐标网络的神经切比雪夫核分析
用神经网络理论分析周期激活神经网络,证明其在视觉任务中表现出优越性能,并对其神经切线核进行了研究,得出周期激活网络在 NTK 视角下比 ReLU 激活网络更好。研究还对网络的记忆能力进行了实证验证,为周期激活神经网络的性质提供了深入理解。
- 非线性物理网络的挑战
通过理论结果及数值示例,我们揭示部分微分方程的神经切向核心观点下,非线性微分算子呈现不同行为,以及使用二阶方法训练物理信息神经网络的优势和收敛能力,同时解决谱偏差和收敛速度慢的挑战。