通过架构采样器专注于我们需要的内容
本文提出了一种名为 AutoFormer 的新一代架构搜索框架,该框架是针对视觉分类和检测任务中 transformer 网络设计的,通过优化 supernet 让数千个子网络获得很好的训练,最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能,且具有良好的迁移性能和蒸馏实验性能。
Jul, 2021
本文提出了 ViTAS 方法,其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题,并辅以弱数据增强和规范化技术,以获得稳定的训练结果。实验证明,与其他常用方法相比,ViTAS 取得了极高的性能提升。
Jun, 2021
本文提出了一种训练无需的 Transformer 架构搜索方法,使用 DSS 指标评估 ViT 架构的突触多样性和突触显著性,从而大大提高了在 ViT 搜索空间的效率,并取得了与手动设计和自动设计的 ViT 架构一样好的性能表现。
Mar, 2022
本研究旨在通过将谱层和多头注意力层结合起来提出 Spectformer 架构,该架构的表现优于其他转换器表示形式,特别是在图像识别任务中。
Apr, 2023
本研究提出了一个名为 AutoTaskFormer 的自动多任务视觉 Transformer 神经架构搜索框架,该框架能够自动识别在多个任务之间共享的权重,并在各种资源约束下提供成千上万的经过良好训练的视觉 Transformer。实验结果表明,AutoTaskFormer 在多任务学习方面优于现有的手工制作的视觉 Transformer。
Apr, 2023
本文针对 prototypical part network 在 vision transformer 上的应用存在的 “干扰” 问题,提出了 prototypical part transformer 方法,引入全局和局部原型来捕捉和突出目标的代表性整体和部分特征,并通过显式监督控制局部原型,从而提高整体的可解释性与表现。
Aug, 2022
本研究提出了一种名为 AutoFocusFormer (AFF) 的局部 - 注意力 Transformer 图像识别骨干网络,通过学习保留任务中最重要的像素来实现自适应降采样,采用点基础分割方法,使得小目标在降采样过程中得到更充分地表示,并展示它在分割任务中显著优于基线模型。
Apr, 2023
用于视觉理解的 SparseFormer 通过调整 RoIs 利用较少的视觉标记提供了一种替代方案,从而大大减少了计算成本并同时实现了有希望的性能。我们提出了一种简单高效的方法,通过从基于 ViT 的视觉基础模型中启动 SparseFormer,仅需训练 SparseFormer 特定的轻量级聚焦变换器,从而可以以较小数量的训练样本且不需要标签或标题,在几小时内构建具有不同大规模预训练模型的 SparseFormer 架构。这种方法可以在 IN-1K 上使用仅 49 个标记达到 84.9%的准确率,并且基于 CLIP 的多模态 SparseFormer 还能在具有大大降低的计算成本的情况下展示出显著的零样本性能,而尚未在启动过程中查看任何标题。此外,基于 CLIP 启动的 SparseFormers 可以将输出空间与语言对齐,成为多模态大型语言模型中高效的视觉编码器。
Dec, 2023
本文提出了一种名为 AttentiveNAS 的神经结构搜索算法,通过优化网络搜索策略,实现了更好的性能 Pareto,并成功应用于 ImageNet 上,取得了性能上的巨大提升。
Nov, 2020
该研究提出了 few-shot NAS,利用多个超级网络(称为子超级网络)覆盖搜索空间的不同区域,以缓解操作之间的不良共适应,并证明其在多项任务中能够显著提高各种一次性方法的准确性,包括在 NasBench-201 和 NasBench1-shot-1 上的 3 个不同任务中的 4 个基于梯度的和 6 个基于搜索的方法,并在 ImageNet、CIFAR10 和 Auto-GAN 上取得最新水平。
Jun, 2020