ConTNet:为什么不同时使用卷积和Transformer?
本文研究使用纯Transformer模型实现复杂视觉任务中的目标检测,发现Vision Transformer作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果,而且能够保持更高的图像分辨率。
Dec, 2020
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文提出了一种基于Transformer和CNN的新型混合神经网络(CMTs),通过捕捉图像中的长程依赖和建模本地特征,实现了比现有的DeiT和EfficientNet更高的精度和更小的计算成本。
Jul, 2021
通过15项单任务和多任务性能评估,系统地研究了ConvNets和vision transformers的迁移学习能力,发现vision transformers在13个下游任务中表现出一致优势,并且更适合于多任务学习。
Aug, 2021
本研究重新审视设计空间,逐步将标准ResNet现代化为Vision Transformer的设计,发现了几个关键组件,并发现纯ConvetNets模型家族ConvNeXt可以在精度和可伸缩性方面与Transformer竞争,在ImageNet的top-1准确率方面达到了87.8%,并在COCO检测和ADE20K分割上优于Swin Transformer 。
Jan, 2022
本文提出了一个基于轻量级ConvNet模型的元模型模块,结合视觉转换器(Vision Transformers)的优点,使用位置感知循环卷积(ParC)和压缩激活操作(squeeze-exictation ops)来加强ConvNet的性能,实现了比流行的轻量级ConvNet和基于视觉变换器的模型在常见视觉任务和数据集上更好的性能,而且具有更少的参数和更快的推理速度。
Mar, 2022
本文主要从实际应用的角度重新审视Transformer,并将硬件延迟作为衡量计算效率的指标,提出一系列针对TensorRT的网络设计实践指南,并给出了一家TRT-ViT的网络模型,实验表明在不同的视觉任务中,TRT-ViT在延迟/准确性的权衡方面显著优于现有的ConvNets和Vision Transformers。
May, 2022
本文提出了一种动态多级注意力机制(DMA),它通过多个卷积核大小捕捉输入图像的不同模式,并通过门控机制实现输入自适应权重,然后提出了一种名为DMFormer的有效骨干网络,该网络采用了DMA替代了视觉变换器中的自我关注机制。在ImageNet-1K和ADE20K数据集上的广泛实验结果表明,DMFormer具有先进的性能,优于大小相似的视觉变压器(ViTs)和卷积神经网络(CNNs)。
Sep, 2022
我们将视觉Transformer解释为具有动态卷积的ConvNets,并在统一框架中比较它们的设计选择,证明了视觉Transformer可以以ConvNets的设计空间为参考,从而指导网络设计,并展示了如何通过更换激活函数和创建效率更高的深度视觉Transformer来提高性能和收敛速度。该统一解释不仅仅适用于给定的示例,希望能够激发社区并产生更先进的网络架构。
Sep, 2023
Transformer设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于Transformer的Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023