无需训练的 NAS 遇上 Vision Transformer：神经切线核视角

Mar, 2024

无需训练的 NAS 遇上 Vision Transformer：神经切线核视角

When Training-Free NAS Meets Vision Transformer: A Neural Tangent Kernel Perspective

Qiqi Zhou, Yichen Zhu

TL;DR本论文探讨了神经切线核（NTK）在没有训练的情况下搜索视觉变换器。通过与先前观察到的基于 NTK 的指标在初始化时能有效预测 CNN 的性能相比较，我们通过实证表明它们在 ViT 搜索空间中的无效性。我们假设 ViT 中的基本特征学习偏好导致将 NTK 应用于 ViT 的 NAS 的无效性。我们从理论和实证角度验证了 NTK 基本上是估计学习低频信号的神经网络的能力，完全忽略了特征学习中高频信号的影响。为了解决这个局限性，我们提出了一种名为 ViNTK 的新方法，通过将傅里叶特征从输入中整合到高频域中，将标准 NTK 推广到高频领域。在图像分类和语义分割任务的多个 ViT 搜索空间上的实验表明，我们的方法可以在维持类似的性能的同时显著加快 ViT 的搜索成本。

Abstract

This paper investigates the neural tangent kernel (NTK) to search vision transformers without training. In contrast with the previous observation that NTK-based metrics can effectively predict CNNs performance at initialization, we empirically show their inefficacy in the →

neural tangent kernel vision transformers vit search space feature learning vintk

发现论文，激发创造

从实际角度揭秘神经切向核：在不进行训练的情况下，它是否可供神经架构搜索信赖？

本研究提出了基于 Label-Gradient Alignment（LGA）的新型 NTK 度量方法，通过少量训练，LGA 能够可靠且准确地估计神经结构的性能，并能指导现有的搜索算法以更小的搜索成本实现具有竞争性的搜索性能。

Mar, 2022

通过草图和随机特征扩展神经切向核规模

该研究提出了一种近似算法，旨在加速使用神经切向核的大规模学习任务，并结合随机特征，通过谱逼近保证精度。实验结果表明，其线性回归器可在 CIFAR-10 数据集上达到与全精度模型相当的准确度，同时提高了 150 倍的速度。

Jun, 2021

TVT: 在小数据集上无需训练的视觉 Transformer 搜索

本文提出了一种无需训练的视觉 Transformer（ViT）架构搜索方法，通过使用教师模型，利用具有零成本代理的方式搜索更好的 ViT，并在各种小型数据集和搜索空间上展开了大量实验，证明了该方法优于现有的无训练搜索方法。

Nov, 2023

神经切向核方法的神经网络修正

使用神经切比洛夫核方法，获得了网络训练误差上限、网络大小不变的泛化误差上限，以及一个简单且解析的核函数，能够优于相关网络，但需要注意网络缩放因子的问题。本文对原有方法进行修正，提出了更加严格的误差上限，解决了缩放问题。

Jul, 2020

利用无限宽深度神经网络在小数据任务中的能力

该研究表明：(a) 在无穷宽度神经网络 (NNs) 上应用 l2 损失 (通过梯度下降法) 训练，并将学习率设置为无穷小，与 (b) 基于所谓的神经切向核 (NTK) 的核回归是相等的。在此基础上，对 NTK 进行高效计算的算法已被提出，表明 NTK 在低数据任务上表现良好。

Oct, 2019

ViTAS: 视觉 Transformer 架构搜索

本文提出了 ViTAS 方法，其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题，并辅以弱数据增强和规范化技术，以获得稳定的训练结果。实验证明，与其他常用方法相比，ViTAS 取得了极高的性能提升。

Jun, 2021

无切线的神经核函数

通过研究神经网络和内核空间中的简单构建块之间的联系，我们提出了一种从特征组中创建 “组合” 内核的代数。在实验中，我们发现神经网络体系结构和相关内核的测试误差之间存在相关性，并构建了一个只使用 3x3 卷积、2x2 平均池化、ReLU 并使用 SGD 和 MSE 损失进行优化的简单神经网络体系结构，在 CIFAR10 数据集上获得 96％的准确度，其对应的组合内核可达到 90％的准确度。我们还使用我们的构造方法研究了神经网络、NTK 和组合内核在小数据集环境中的相对性能表现，特别是发现组合内核优于 NTK，神经网络优于这两种内核方法。

Mar, 2020

无需训练的 Transformer 架构搜索

本文提出了一种训练无需的 Transformer 架构搜索方法，使用 DSS 指标评估 ViT 架构的突触多样性和突触显著性，从而大大提高了在 ViT 搜索空间的效率，并取得了与手动设计和自动设计的 ViT 架构一样好的性能表现。

Mar, 2022

重新审视高频组件，提高视觉 Transformer 的性能

本研究通过频率分析发现 Vision Transformer 对高频图像部分不足，从而提出了基于对抗训练的高频数据增强方法 (HAT)，可显著提升 Vision Transformer 模型的性能并适用于下游任务。

Apr, 2022

寻找高效的多阶段视觉 Transformer 模型

利用神经架构搜索（NAS）设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS，其中融合了两个技术：残差空间缩减和权重共享 NAS，实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。

Sep, 2021