ViT-CoMer: 具有卷积多尺度特征交互的视觉Transformer用于密集预测
本文研究了另一种适用于许多密集预测任务的简单骨架网络,即金字塔视觉Transformer(PVT),它比Transformer具有更高的输出分辨率和更少的计算和内存成本,并且在许多下游任务中提高了性能,例如对象检测,语义和实例分割。
Feb, 2021
本文提出了稠密视觉Transformer(dense vision transformers)作为密集预测任务的主干网络,相对于全卷积网络,该结构以恒定和较高的分辨率处理表示,并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上,我们的实验表明,该结构在有大量训练数据的情况下能够显着提高性能,是一种大有前途的新型神经网络结构。
Mar, 2021
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文提出了一种级联修剪框架,名为CP-ViT,通过动态预测Transformer模型中信息含量低的部分,可以使基于Vision transformer的图像识别模型减少计算冗余,同时保证了很高的准确性,具有在对资源有限的移动设备上进行实际部署的多种适用性。
Mar, 2022
本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决Vision Transformer (ViT)在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中ViT-Adapter-L模型在不使用额外数据的情况下,在COCO test-dev数据集上实现了state-of-the-art的性能。
May, 2022
Transformer设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于Transformer的Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
通过从视觉感知中汲取灵感进行注意机制创新,Transformer已经成为最先进的视觉架构。本文引入了一种融合区域和稀疏注意力的Atrous Attention,它能够自适应地整合局部和全局信息,并保持层次关系,提出了一种通用的混合式视觉Transformer骨干网络ACC-ViT,适用于标准视觉任务和移动规模版本,适用于具有小数据集的特定应用领域。
Mar, 2024
一种基于高分辨率输入的新型混合主干网络(HIRI-ViT),通过将典型的卷积神经网络操作分解为两个并行的卷积神经网络分支来构建,一个直接以高分辨率特征为输入,但使用更少的卷积操作,另一个首先进行下采样,然后在低分辨率特征上使用更多的卷积操作,通过对ImageNet、COCO和ADE20K数据集的实验表明了HIRI-ViT的优越性。
Mar, 2024
本研究提出了一种新的混合视觉transformer模型(ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024