缩放的ReLU对于训练视觉Transformer很重要
本文发现Vision transformers模型存在attention collapse issue现象,即transformer模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为Re-attention的有效方法来解决该问题,使得32层的Vision transformers模型在ImageNet数据集的Top-1分类准确率上提高了1.6%。
Mar, 2021
本文旨在分析分析ViT模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用ViT以无需像素级监督的方式实现准确的语义分割。
May, 2021
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
通过将卷积干部替换为小型的步幅为2的3*3卷积,研究人员证明了将视觉变换器模型的初始处理更改为标准卷积干部可以显著提高最终模型的稳定性,并提高峰值性能.
Jun, 2021
研究比较了卷积神经网络和Vision Transformer模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中self-attention在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本篇研究介绍如何以有限数据训练Vision Transformers,并探讨使用基于参数实例鉴别方法的理论分析。结果表明,该方法优于其他方法,可捕捉特征对齐和实例相似性,并在多个ViT基础下从头开始训练7个小数据集,取得了最新的测试结果。此外,该研究还探讨了小型数据集的迁移能力,并发现从小型数据集中学习的表示甚至可以改善大规模ImageNet的训练结果。
Jan, 2022
提出了一种名为As-ViT的自动缩放框架,用于设计和扩展Vision Transformers(ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需12小时的训练。
Feb, 2022
本文研究使用Vision Transformers架构在对抗训练中对抗外部攻击的鲁棒性问题,并使用ImageNet数据集的子集进行严格的消融研究,找到了一种改进后的训练方法,可以在不使用强数据增强的情况下提高模型的性能和识别鲁棒性。
Sep, 2022
本文介绍了高效稳定地训练一个22B参数的Vision Transformers(ViT-22B)的方法,并在结果模型上进行了大量实验。ViT-22B展示了在视觉领域实现LLM般的扩展的潜力,并提供了部分实现的关键步骤。
Feb, 2023
轻量级视觉Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于ResNet等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024