通过架构采样器专注于我们需要的内容

Aug, 2022

通过架构采样器专注于我们需要的内容

FocusFormer: Focusing on What We Need via Architecture Sampler

Jing Liu, Jianfei Cai, Bohan Zhuang

TL;DRVision Transformers 是目前计算机视觉领域的重要技术，这篇论文提出了一种名为 FocusFormer 的方法，它通过学习一个架构采样器，在不同资源约束条件下分配更高的采样概率，从而提高架构的性能，并显著降低搜索成本。

Abstract

vision transformers (ViTs) have underpinned the recent breakthroughs in computer vision. However, designing the architectures of ViTs is laborious and heavily relies on expert knowledge. To automate the design process and incorporate deployment flexibility, one-shot →

vision transformers neural architecture search focusformer performance optimization resource constraint

发现论文，激发创造

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

ViTAS: 视觉 Transformer 架构搜索

本文提出了 ViTAS 方法，其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题，并辅以弱数据增强和规范化技术，以获得稳定的训练结果。实验证明，与其他常用方法相比，ViTAS 取得了极高的性能提升。

Jun, 2021

无需训练的 Transformer 架构搜索

本文提出了一种训练无需的 Transformer 架构搜索方法，使用 DSS 指标评估 ViT 架构的突触多样性和突触显著性，从而大大提高了在 ViT 搜索空间的效率，并取得了与手动设计和自动设计的 ViT 架构一样好的性能表现。

Mar, 2022

SpectFormer：视觉 Transformer 中所需的频率和注意力

本研究旨在通过将谱层和多头注意力层结合起来提出 Spectformer 架构，该架构的表现优于其他转换器表示形式，特别是在图像识别任务中。

Apr, 2023

AutoTaskFormer: 搜索视觉 Transformer 进行多任务学习

本研究提出了一个名为 AutoTaskFormer 的自动多任务视觉 Transformer 神经架构搜索框架，该框架能够自动识别在多个任务之间共享的权重，并在各种资源约束下提供成千上万的经过良好训练的视觉 Transformer。实验结果表明，AutoTaskFormer 在多任务学习方面优于现有的手工制作的视觉 Transformer。

Apr, 2023

ProtoPFormer：基于原型部件的视觉 Transformer 模型用于可解释的图像识别

本文针对 prototypical part network 在 vision transformer 上的应用存在的 “干扰” 问题，提出了 prototypical part transformer 方法，引入全局和局部原型来捕捉和突出目标的代表性整体和部分特征，并通过显式监督控制局部原型，从而提高整体的可解释性与表现。

Aug, 2022

AutoFocusFormer：基于自注意力机制的图像分割

本研究提出了一种名为 AutoFocusFormer (AFF) 的局部 - 注意力 Transformer 图像识别骨干网络，通过学习保留任务中最重要的像素来实现自适应降采样，采用点基础分割方法，使得小目标在降采样过程中得到更充分地表示，并展示它在分割任务中显著优于基线模型。

Apr, 2023

从视觉基础模型起步的稀疏 Transformer

用于视觉理解的 SparseFormer 通过调整 RoIs 利用较少的视觉标记提供了一种替代方案，从而大大减少了计算成本并同时实现了有希望的性能。我们提出了一种简单高效的方法，通过从基于 ViT 的视觉基础模型中启动 SparseFormer，仅需训练 SparseFormer 特定的轻量级聚焦变换器，从而可以以较小数量的训练样本且不需要标签或标题，在几小时内构建具有不同大规模预训练模型的 SparseFormer 架构。这种方法可以在 IN-1K 上使用仅 49 个标记达到 84.9％的准确率，并且基于 CLIP 的多模态 SparseFormer 还能在具有大大降低的计算成本的情况下展示出显著的零样本性能，而尚未在启动过程中查看任何标题。此外，基于 CLIP 启动的 SparseFormers 可以将输出空间与语言对齐，成为多模态大型语言模型中高效的视觉编码器。

Dec, 2023

AttentiveNAS: 通过注意力采样提高神经架构搜索

本文提出了一种名为 AttentiveNAS 的神经结构搜索算法，通过优化网络搜索策略，实现了更好的性能 Pareto，并成功应用于 ImageNet 上，取得了性能上的巨大提升。

Nov, 2020

少样本神经架构搜索

该研究提出了 few-shot NAS，利用多个超级网络（称为子超级网络）覆盖搜索空间的不同区域，以缓解操作之间的不良共适应，并证明其在多项任务中能够显著提高各种一次性方法的准确性，包括在 NasBench-201 和 NasBench1-shot-1 上的 3 个不同任务中的 4 个基于梯度的和 6 个基于搜索的方法，并在 ImageNet、CIFAR10 和 Auto-GAN 上取得最新水平。

Jun, 2020