自然语言语义下的视觉 Transformer
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
在视觉 - 语言预训练框架中,通过提供语义上有意义的视觉标记给 transformer 编码器,本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制,并通过使用现成的分割和场景图模型,提取了实例分割掩码(称为有形标记)和关系动作(称为无形标记)的表示,从而在视觉 side 的 transformer 预训练中引入了这些新增的标记,并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明,在 COCO 数据集上,相比 ViTs,在文本到图像(+47%)和图像到文本(+44%)检索任务中学到了更好的表示质量,并且在组合性评估基准(如 ARO(+18%)和 Winoground(+10%))上展示了优势。
May, 2024
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量,从而在 ImageNet top-1 和 LIP,COCO-stuff 图像分割测试上表现出了显着的优势。
Jun, 2020
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
本文提出了一种动态混合尺度的 Vision Transformers 模式,通过引入条件门控机制,智能选择每个图像区域的最佳令牌规模进行处理,从而提高图像分类的精度和效率。
Jul, 2023
本文讲述了使用 Vision Transformers 来进行语义分割的能力,提出了 SegVit 模型,并介绍了 Attention-to-Mask(ATM)模块和基于查询的下采样(QD)和上采样(QU)技术,用于构建 Shrunk 结构来减小计算量。实验证明,使用 ATM 模块的 SegVit 模型在 ADE20K 数据集上优于使用常规 ViT 骨干网络的 SegVit 模型,并在 COCO-Stuff-10K 和 PASCAL-Context 数据集上达到了新的排名最佳性能。
Oct, 2022
基于语义平等聚类(SEC)的全球注意力机制和视觉变换器(ViT)提出了一种速度快且平衡的聚类方法 SecViT,证明其在图像分类、目标检测、实例分割和语义分割等方面的有效性。
May, 2024
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021