- NTK 逼近在更长时间内有效
本篇研究探讨了神经切线核 (NTK) 近似在用方形误差训练模型中的有效性。在 Chizat 等人 2019 年的懒惰训练设置中,我们证明通过 O (T) 的模型缩放因子使得 NTK 近似能够有效直到训练时间 T。我们的界限紧密且优于 Chi - 深度宽神经网络的统计最优性
本文研究了深度神经网络的泛化能力问题,探讨了其与神经切向核回归的关系,并分析了核的谱性质,得出了多层宽神经网络使用梯度下降等算法在早期停止时能够获得最佳性能的结论。
- 物理信息征变基网络 (PIRBN): 一种用于解决非线性偏微分方程的本地逼近神经网络
作者提出了一种带有径向基函数的物理信息神经网络用于求解具有高频特征和不适定计算域的偏微分方程问题,该网络可通过梯度下降法收敛到高斯过程,并且比传统 PINN 方法更加高效。
- ICLR监督复杂度及其在知识蒸馏中的作用
本文提出了一个新的理论框架,探究了知识蒸馏的学生的普适性行为,并评估了在线蒸馏的效力。该框架突出了教师提供监督和学生的神经切线核之间的对齐度的复杂性之间微妙的相互作用,为蒸馏中流行的各种技术的效用提供了严密的理论基础。
- 物理信息神经网络在频谱范围和导数阶数上的收敛行为研究
该研究通过对不同频率、组合和方程的简单正弦函数进行一系列数值实验,发现在标准化条件下,具有任意阶微分方程的物理知情神经网络确实存在明显的谱偏差,并随微分方程的阶数而增加。
- 大偏差下宽神经网络的收敛性和泛化性
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的 ReLU 网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络 - 在良性和对抗训练下的神经切向核演化
本文研究了有关深度学习的两个问题:对抗攻击与深度学习的泛化能力。以 Neural Tangent Kernel(NTK)为主要理论,探究有限宽度下的 kernel learning 与 lazy training,结果表明标准训练与对抗训练 - 基于核方法的语言模型微调视角
通过对 14 个 NLP 任务的实验验证,我们探究了采用 NTK 对预训练语言模型进行 fine-tuning 的机制和条件,并提出了一个基于 NTK 的解释,解释了参数高效子空间 fine-tuning 方法的成功原因。
- 二次回归模型表现出稳定边缘的逐渐加强
本文研究了大步长梯度下降的特性,证明二阶回归模型中存在一种逐渐趋于稳定的过程,这一过程不仅仅局限于神经网络等复杂的高维非线性模型中,这可能是一种离散学习算法。
- Hadamard 乘积神经网络的外推与谱偏差:多项式网络研究
本文研究了神经网络训练动态和泛化界限的一个有力工具 —— 神经切向核(NTK),提出了有限宽度 NTK 理论在多项式神经网络中的应用,证明了在外推和特征偏差方面,多项式神经网络与标准神经网络的差异。
- NAS 模型在激活和跳连接搜索下的泛化特性
本文研究了神经架构搜索的推广特性,使用混合激活函数、全连接和残差神经网络等搜索空间,推导出神经张量核的最小特征值的上下界,从而建立了基于 SGD 训练的 NAS 的推广误差界,同时提出了一种基于该理论的无需训练的算法,用于指导 NAS 选择 - ICML从层状结构和神经切向核的角度看图卷积网络
本文研究了 sheaf 卷积网络的神经切向核,通过将函数分解为由图形决定的前向扩散过程和节点激活对输出层的复合效果所确定的两部分,提出了一种参数化方法以拟合核函数。
- 深度学习中 NTK 在理解泛化方面的局限性
本文通过缩放定律的角度研究神经切向核 (NTK) 及其经验性变量,发现它们无法完全解释神经网络泛化的重要方面。通过实际设置,我们展示了有限宽度神经网络相对于其对应的经验和无穷 NTK 起始时具有显着更好的数据缩放指数,并证明了 NTK 方法 - ICML快速有限宽度神经切向核
通过分析神经网络结构,我们提出了两种改变有限宽度神经切向核计算量和内存要求指数的新算法,从而显著提高了效率。
- TKIL:基于正切核的类平衡增量学习方法
该研究提出了一种基于神经切向核方法的深度神经网络类增量学习方法(TKIL),可以更好地平衡跨类别的性能,实现更高的整体准确性和方差。
- 克服神经价值近似的光谱偏差
本文探讨了如何通过使用复合神经切向核的傅里叶特征网络来克服多层感知器和神经核回归中存在的高频率成分拟合所需的步骤数指数级增加的问题,以提高深度增强学习的效率和稳定性,并取得了令人瞩目的实验结果。
- ICLR通过神经切向核函数分析集成树结构
本文研究了软树决策树的神经切向核(NTK)并发现只有每个深度的叶子节点数是固定的,就算不同的树架构也可以在功能空间中拥有相同的训练行为和泛化性能,同时对称和不对称树的 NTK 表现出不同的性质。
- CVPR从实际角度揭秘神经切向核:在不进行训练的情况下,它是否可供神经架构搜索信赖?
本研究提出了基于 Label-Gradient Alignment(LGA)的新型 NTK 度量方法,通过少量训练,LGA 能够可靠且准确地估计神经结构的性能,并能指导现有的搜索算法以更小的搜索成本实现具有竞争性的搜索性能。
- ICLR宽神经网络的线性转换是由组装弱模型的新性质
该论文探讨了宽神经网络与线性输出层的关系,并发现它们在梯度下降的优化路径区域中几乎是线性的,并且有几乎恒定的神经切向核。通过递归地构建由一组子模型组成的神经网络装配模型的方法,该论文提出了一种新的视角解释宽神经网络的线性结构。
- 深度和初始化对无限宽神经切向核的影响
本文研究了深度与宽度相当的全连接 ReLU 网络的神经切向核(Neural Tangent Kernel)及其性质,发现其性质取决于深度与宽度之比以及初始状态下参数分布的情况。结果表明,在超参数空间中,有序、混沌和混沌边缘三个阶段很重要。在