CMT: 卷积神经网络与视觉 Transformer 相遇
本文提出了一种新的医学图像分割混合架构,手持卷积神经网络和 Transformer,用于动态变形卷积和自适应互补注意模块改进卷积神经网络和 Transformer 的性能,以实现更好的医学图像分割结果。
Jun, 2023
该研究介绍了一种新型模型 Convolutional Meet Transformer Network (CMTNet),它结合了卷积神经网络和 Transformer,在高光谱作物分类中表现出优越性能,通过光谱和空间特征提取模块、双分支结构、多输出约束模块等实现了全局和局部特征提取以及多输出损失计算与交叉约束,显著优于其他现有网络。
Jun, 2024
本文提出了名为 CvT 的新型架构,它通过将卷积引入 ViT 中实现了性能和效率的提升,并在 ImageNet-1K 上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本论文提出基于 Transformer 和 ConvNet 结构的 ConTNet 模型,相较于传统的 ConvNet 模型,可以更好地捕捉全局信息,从而部署在图像分类和物体检测等任务中,具有明显的优异性。
Apr, 2021
本研究采用混合卷积神经网络和 Transformer 的混合结构,提出了一种具有自适应特征提取能力和具有全局信息建模的方法,用于医学图像分割。实验结果表明,该方法比现有的方法具有更好的医学图像分割结果。
Jun, 2023
本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述,其中融合了卷积和自注意力机制,重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。
May, 2023
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本研究重新审视设计空间,逐步将标准 ResNet 现代化为 Vision Transformer 的设计,发现了几个关键组件,并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争,在 ImageNet 的 top-1 准确率方面达到了 87.8%,并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。
Jan, 2022
我们结合了 RetNet 和 Transformer 提出了 RMT,通过引入显式衰减和空间先验知识的方式,使得 RMT 在计算机视觉任务中表现出卓越的性能。
Sep, 2023