GeoViT：一种用于地理空间影像分析的多功能视觉 Transformer 架构

Nov, 2023

GeoViT：一种用于地理空间影像分析的多功能视觉 Transformer 架构

GeoViT: A Versatile Vision Transformer Architecture for Geospatial Image Analysis

Madhav Khirwar, Ankur Narang

TL;DRGeoViT 是一种紧凑的视觉转换模型，熟练处理卫星图像以进行多模式分割、分类和回归任务，目标是 CO2 和 NO2 排放。利用 GeoViT，我们在估计发电率、燃料类型、CO2 的尾气覆盖率和高分辨率 NO2 浓度地图方面获得了卓越的准确性，超过了先前的最先进模型，同时显著减小了模型尺寸。GeoViT 表明了视觉转换器架构在利用卫星数据提升温室气体排放见解方面的功效，对全球气候变化监测和排放规章制度的推进具有关键作用。

Abstract

greenhouse gases are pivotal drivers of climate change, necessitating precise quantification and source identification to foster mitigation strategies. We introduce →

greenhouse gases climate change geovit satellite imagery ghg emissions

发现论文，激发创造

ChangeViT: 释放纯视觉 Transformer 的变化检测能力

本文介绍了一种利用 ViTs 骨干结构进行大规模变化检测的 ChangeViT 框架，并引入细节捕获模块和特征注入器，使 ChangeViT 在检测大规模变化和捕获细粒度细节方面表现出色，并在 LEVIR-CD、WHU-CD、CLCD 和 OSCD 四个数据集上取得最先进的性能，验证了该方法的有效性。

Jun, 2024

ViGEO：地球观测中视觉图神经网络评估

卫星任务和地球观测系统对于环境监测和及时发现灾难性事件以及长期监测自然资源和人造资产如植被、水体、森林和建筑物方面具有基础性作用。近期机器学习、计算机视觉的进展以及标注数据的可用性使得研究人员通过使用深度神经网络展示了在土地利用监测系统和遥感图像分类方面的可行性和精确性。该研究调查了一种最新的视觉图神经网络架构（ViG）在土地覆盖分类任务中的性能，并实验结果显示 ViG 在多类别和多标签分类背景下的表现超过了 ViT 和 ResNet 在大规模基准测试中的最新水平。

Feb, 2024

TurboViT：通过生成式架构搜索生成快速视觉 Transformer

通过生成式架构搜索，通过掩蔽单元注意力和 Q 池设计模式创建高效分层视觉 Transformer 体系结构设计 TurboViT，相较于其他 10 种同等准确度的最新高效视觉 Transformer 网络架构设计，在 ImageNet-1K 数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。

Aug, 2023

TreeFormers -- 森林砍伐司机分类下的视觉 Transformer 探索

通过使用印尼森林的卫星图像，本研究探索了使用视觉变换器（ViTs）对森林砍伐驱动因素进行分类的关键问题。通过对预训练的 ViT 进行微调并采用数据增强和纵向数据嵌入等方法，本研究在基准模型上取得显著改善，测试准确率达到了 72.9％。通过全面的分析，本研究突出了方法的优势和局限性，为通过先进的计算机视觉技术解决森林砍伐问题作出了贡献。

May, 2024

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024

Vision Transformers：一种用于高分辨率和大规模覆盖树冠高度的新方法

本文使用新的视觉 Transformer 模型在加纳的广泛景观上进行优化，同时优化分类（离散）和回归（连续）损失函数，从而实现了比以前使用的卷积方法更高的准确度。模型的结果表明，我们提出的离散 / 连续损失显着提高了对非常高的树（即 > 35m）的灵敏度，而对于其他方法，往往会出现饱和效应。最终，ViT 模型的高度图具有更好的地面采样距离和更好的稀疏植被灵敏度，与卷积模型相比，其 RMSE 仅为 3.12m。

Apr, 2023

SRViT：基于视觉 Transformer 的规模化卫星观测雷达回波反射率估计

我们引入了一种基于 Transformer 的神经网络，从地球同步卫星影像生成高分辨率（3km）的合成雷达反射率场，旨在提高高影响天气事件的短期对流尺度预报能力，并在美国数值天气预报的数据同化中提供帮助。与卷积方法相比，我们的结果显示出对各种复合反射率阈值的改善锐度和更高准确性。通过额外的特定大气现象案例研究支持我们的定量研究结果，同时引入了一种新颖的归因方法来指导领域专家理解模型的输出。

Jun, 2024

HEAL-ViT：用球形网格实现中程天气预报的视觉 Transformer

HEAL-ViT 是一种新颖的架构，它在球面网格上使用 ViT 模型，从而同时享受基于图的模型的空间均匀性和变压器所利用的高效注意力机制，能够产生优于 ECMWF IFS 的天气预报结果。

Feb, 2024

卫星影像时序的多模态视觉转换器用于作物分类

通过使用来自不同卫星传感器获取的图像，已经证实在卫星图像时间序列（SITS）的作物分布图框架中，可以提高分类性能。现有的最新架构使用自注意机制处理时间维度和卷积处理空间维度。受到单模态 SITS 作物分布图中纯注意力架构的成功启发，我们引入了几种多模态多时序变换器架构。具体来说，我们研究了在时间空间视觉变换器（TSViT）中早期融合、交叉注意融合和同步类标记融合的有效性。实验结果表明，相较于具有卷积和自注意组件的最新架构，我们的架构显著改善了性能。

Jun, 2024

LF-ViT：针对高效图像识别减少 Vision Transformer 中的空间冗余

该研究提出了一种名为 LF-ViT 的定位和聚焦视觉变换器模型，通过在定位阶段处理降低分辨率图像并在发现困难预测时触发内置的全局类注意机制，确定和聚焦类别区域，然后在聚焦阶段使用原始图像中的该区域增强识别能力，该模型有效地缩小了计算要求并提高了性能。

Jan, 2024