基于核方法的语言模型微调视角

Oct, 2022

A Kernel-Based View of Language Model Fine-Tuning

Sadhika Malladi, Alexander Wettig, Dingli Yu, Danqi Chen, Sanjeev Arora

TL;DR通过对 14 个 NLP 任务的实验验证，我们探究了采用 NTK 对预训练语言模型进行 fine-tuning 的机制和条件，并提出了一个基于 NTK 的解释，解释了参数高效子空间 fine-tuning 方法的成功原因。

Abstract

It has become standard to solve nlp tasks by fine-tuning pre-trained language models (LMs), especially in low-data settings. There is minimal theoretical understanding of empirical success, e.g., why

nlp language models fine-tuning neural tangent kernel subsace-based fine-tuning

发现论文，激发创造

用于高效语言模型微调的 NTK - 逼近 MLP 融合

通过使用神经切向核（NTK）逼近多层感知器模块（MLP）的预训练语言模型（PLM），提出了一种轻量级 PLM 压缩方法，通过重新考虑 MLP 作为子 MLP 集合并将其聚类为给定数量的重心，进而恢复为压缩的 MLP，惊人地显示出良好逼近原始 PLM 的 NTK。

Jul, 2023

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

深度学习中 NTK 在理解泛化方面的局限性

本文通过缩放定律的角度研究神经切向核 (NTK) 及其经验性变量，发现它们无法完全解释神经网络泛化的重要方面。通过实际设置，我们展示了有限宽度神经网络相对于其对应的经验和无穷 NTK 起始时具有显着更好的数据缩放指数，并证明了 NTK 方法在理解自然数据集上真实网络泛化的局限性。

Jun, 2022

利用无限宽深度神经网络在小数据任务中的能力

该研究表明：(a) 在无穷宽度神经网络 (NNs) 上应用 l2 损失 (通过梯度下降法) 训练，并将学习率设置为无穷小，与 (b) 基于所谓的神经切向核 (NTK) 的核回归是相等的。在此基础上，对 NTK 进行高效计算的算法已被提出，表明 NTK 在低数据任务上表现良好。

Oct, 2019

深度神经网络和神经切向等级的动态

本文研究了有限宽度的深度全连接神经网络中神经切向核的动态，并推导出一个无穷层次的普通微分方程组，它捕捉了深层神经网络的梯度下降动态。此外，在条件限制下，研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能，同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。

Sep, 2019

Tensor Programs IIb: 神经切向核训练动态的架构通用性

通过 Tensor Programs 技术在 Tensor Program 中分析的 SGD 动态，我们证明了使用 NTK 参数化的相同神经网络在训练期间遵循功能空间中的内核梯度下降动态，其中内核是无穷宽度 NTK，从而完整证明了 NTK 行为的结构普适性。

May, 2021

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

在良性和对抗训练下的神经切向核演化

本文研究了有关深度学习的两个问题：对抗攻击与深度学习的泛化能力。以 Neural Tangent Kernel（NTK）为主要理论，探究有限宽度下的 kernel learning 与 lazy training，结果表明标准训练与对抗训练会有不同的 NTK，最终可以得到一个在 CIFAR-10 数据集上具有 76.1% 鲁棒性的分类器。

Oct, 2022

循环神经切向核

本文介绍并研究了循环神经切线核（RNTK）的性能，证明其能够比其他内核提供更好的性能表现，尤其在处理不同长度输入的情况下表现良好。

Jun, 2020

修复 NTK：从神经网络线性化到精确的凸规划

该研究旨在解释门控 ReLU 网络的凸规划问题并建立其与神经切向核（NTK）之间的联系，通过迭代重新加权来提高 NTK 引导的权重以获得最优的多核学习（MKL）核，该核等同于凸规划问题的解，并提供了对最优核的预测误差的分析结果，并通过群套索的一致性结果进行验证。

Sep, 2023