TreeFormers -- 森林砍伐司机分类下的视觉 Transformer 探索

May, 2024

TreeFormers -- 森林砍伐司机分类下的视觉 Transformer 探索

TreeFormers -- An Exploration of Vision Transformers for Deforestation Driver Classification

Uche Ochuba

TL;DR通过使用印尼森林的卫星图像，本研究探索了使用视觉变换器（ViTs）对森林砍伐驱动因素进行分类的关键问题。通过对预训练的 ViT 进行微调并采用数据增强和纵向数据嵌入等方法，本研究在基准模型上取得显著改善，测试准确率达到了 72.9％。通过全面的分析，本研究突出了方法的优势和局限性，为通过先进的计算机视觉技术解决森林砍伐问题作出了贡献。

Abstract

This paper addresses the critical issue of deforestation by exploring the application of vision transformers (ViTs) for classifying the drivers of →

deforestation vision transformers satellite imagery classification accuracy

发现论文，激发创造

Vision Transformers：一种用于高分辨率和大规模覆盖树冠高度的新方法

本文使用新的视觉 Transformer 模型在加纳的广泛景观上进行优化，同时优化分类（离散）和回归（连续）损失函数，从而实现了比以前使用的卷积方法更高的准确度。模型的结果表明，我们提出的离散 / 连续损失显着提高了对非常高的树（即 > 35m）的灵敏度，而对于其他方法，往往会出现饱和效应。最终，ViT 模型的高度图具有更好的地面采样距离和更好的稀疏植被灵敏度，与卷积模型相比，其 RMSE 仅为 3.12m。

Apr, 2023

GeoViT：一种用于地理空间影像分析的多功能视觉 Transformer 架构

GeoViT 是一种紧凑的视觉转换模型，熟练处理卫星图像以进行多模式分割、分类和回归任务，目标是 CO2 和 NO2 排放。利用 GeoViT，我们在估计发电率、燃料类型、CO2 的尾气覆盖率和高分辨率 NO2 浓度地图方面获得了卓越的准确性，超过了先前的最先进模型，同时显著减小了模型尺寸。GeoViT 表明了视觉转换器架构在利用卫星数据提升温室气体排放见解方面的功效，对全球气候变化监测和排放规章制度的推进具有关键作用。

Nov, 2023

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

RangeViT：用于自动驾驶 3D 语义分割的视觉 Transformer

本文应用 Vision Transformers 和卷积解码器改进了基于投影的 3D 语义分割方法以获得更好的结果，并在 nuScenes 和 SemanticKITTI 数据集上超过了现有的投影方法。

Jan, 2023

探索 Vision Transformers 用于细粒度分类

研究提出了一种多阶段的 Vision Transformer 框架，用于细粒度图像分类，可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能，并在四个流行的细粒度基准测试中进行了实验，同时通过定性结果证明了模型的可解释性。

Jun, 2021

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

医学图像分割的视觉 Transformer 近期综述

医学图像分割是各种医疗应用中至关重要的一环，能够实现准确的诊断、治疗规划和疾病监测。最近，视觉变换器（ViTs）作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器（HVTs）的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外，还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。

Dec, 2023

使用视觉 Transformer 进行语义分割：一项调查

调查了不同的 ViT 架构用于语义分割的性能和使用基准数据集对其进行比较。

May, 2023

纹理分析中视觉 Transformer 特征提取的比较调查

该研究采用 21 个不同的预训练 Vision Transformer 架构，评估其在纹理识别中的性能，并与卷积神经网络和手工设计模型进行比较。结果显示，Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型，尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中，ViT-B with DINO pre-training，BeiTv2，Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外，尽管 GFLOPs 和参数数量较高，ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短，从而实现了更高的效率。

Jun, 2024

ChangeViT: 释放纯视觉 Transformer 的变化检测能力

本文介绍了一种利用 ViTs 骨干结构进行大规模变化检测的 ChangeViT 框架，并引入细节捕获模块和特征注入器，使 ChangeViT 在检测大规模变化和捕获细粒度细节方面表现出色，并在 LEVIR-CD、WHU-CD、CLCD 和 OSCD 四个数据集上取得最先进的性能，验证了该方法的有效性。

Jun, 2024