TreeFormers -- 森林砍伐司机分类下的视觉 Transformer 探索
本文使用新的视觉 Transformer 模型在加纳的广泛景观上进行优化,同时优化分类(离散)和回归(连续)损失函数,从而实现了比以前使用的卷积方法更高的准确度。 模型的结果表明,我们提出的离散 / 连续损失显着提高了对非常高的树(即 > 35m)的灵敏度,而对于其他方法,往往会出现饱和效应。 最终,ViT 模型的高度图具有更好的地面采样距离和更好的稀疏植被灵敏度,与卷积模型相比,其 RMSE 仅为 3.12m。
Apr, 2023
GeoViT 是一种紧凑的视觉转换模型,熟练处理卫星图像以进行多模式分割、分类和回归任务,目标是 CO2 和 NO2 排放。利用 GeoViT,我们在估计发电率、燃料类型、CO2 的尾气覆盖率和高分辨率 NO2 浓度地图方面获得了卓越的准确性,超过了先前的最先进模型,同时显著减小了模型尺寸。GeoViT 表明了视觉转换器架构在利用卫星数据提升温室气体排放见解方面的功效,对全球气候变化监测和排放规章制度的推进具有关键作用。
Nov, 2023
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本文应用 Vision Transformers 和卷积解码器改进了基于投影的 3D 语义分割方法以获得更好的结果,并在 nuScenes 和 SemanticKITTI 数据集上超过了现有的投影方法。
Jan, 2023
研究提出了一种多阶段的 Vision Transformer 框架,用于细粒度图像分类,可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能,并在四个流行的细粒度基准测试中进行了实验,同时通过定性结果证明了模型的可解释性。
Jun, 2021
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
医学图像分割是各种医疗应用中至关重要的一环,能够实现准确的诊断、治疗规划和疾病监测。最近,视觉变换器(ViTs)作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器(HVTs)的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外,还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。
Dec, 2023
该研究采用 21 个不同的预训练 Vision Transformer 架构,评估其在纹理识别中的性能,并与卷积神经网络和手工设计模型进行比较。结果显示,Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型,尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中,ViT-B with DINO pre-training,BeiTv2,Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外,尽管 GFLOPs 和参数数量较高,ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短,从而实现了更高的效率。
Jun, 2024
本文介绍了一种利用 ViTs 骨干结构进行大规模变化检测的 ChangeViT 框架,并引入细节捕获模块和特征注入器,使 ChangeViT 在检测大规模变化和捕获细粒度细节方面表现出色,并在 LEVIR-CD、WHU-CD、CLCD 和 OSCD 四个数据集上取得最先进的性能,验证了该方法的有效性。
Jun, 2024