卷积视觉转换器用于产量预测

Feb, 2024

On Convolutional Vision Transformers for Yield Prediction

Alvin Inderka, Florian Huber, Volker Steinhage

TL;DR基于远程感知数据的直方图，视觉变换器在文献中表现得较少，因此测试了卷积视觉变换器（CvT）来评估当前在许多其他视觉任务中取得最新成果的视觉变换器。CvT 结合了卷积的优势和变换器的动态注意力和全局上下文融合的优势。CvT 的表现不如 XGBoost 和 CNN 等广泛测试的方法，但显示了变换器提升产量预测的潜力。

Abstract

While a variety of methods offer good yield prediction on histogrammed remote sensing data, vision transformers are only sparsely represented in the literature. The →

yield prediction vision transformers convolution vision transformer dynamic attention global context fusion

发现论文，激发创造

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

CMT: 卷积神经网络与视觉 Transformer 相遇

本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络（CMTs），通过捕捉图像中的长程依赖和建模本地特征，实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。

Jul, 2021

Vision Transformers 及其基于 CNN-Transformer 的变体调查

本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述，其中融合了卷积和自注意力机制，重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。

May, 2023

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

视觉 Transformer 综述

本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型，提出了一个分类法来组织代表性的方法，评估和比较所有这些现有的视觉 Transformers 在不同的配置下，并揭示一系列的重要但未开发的方面，最后指出了三个有前途的研究方向。

Nov, 2021

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

2020 年代用于 ConvNet（卷积神经网络）的神经网络

本研究重新审视设计空间，逐步将标准 ResNet 现代化为 Vision Transformer 的设计，发现了几个关键组件，并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争，在 ImageNet 的 top-1 准确率方面达到了 87.8％，并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。

Jan, 2022