用于像素级识别结构组件和损伤的高分辨率视觉变压器
本文综述了基于 transformer 的视觉分割技术,总结了近期的进展,详细介绍了各种方法设计和应用,并对该领域的未来研究方向进行了探讨。
Apr, 2023
本文使用新的视觉 Transformer 模型在加纳的广泛景观上进行优化,同时优化分类(离散)和回归(连续)损失函数,从而实现了比以前使用的卷积方法更高的准确度。 模型的结果表明,我们提出的离散 / 连续损失显着提高了对非常高的树(即 > 35m)的灵敏度,而对于其他方法,往往会出现饱和效应。 最终,ViT 模型的高度图具有更好的地面采样距离和更好的稀疏植被灵敏度,与卷积模型相比,其 RMSE 仅为 3.12m。
Apr, 2023
通过基于深度自注意力网络的创新方法,在自动化电气设备巡检方面提供了突破性的新视角,通过使用高分辨率图像提高了识别精度,并通过引入图像的语义内容来进一步改善了预测效果。
Nov, 2023
医学图像分割是各种医疗应用中至关重要的一环,能够实现准确的诊断、治疗规划和疾病监测。最近,视觉变换器(ViTs)作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器(HVTs)的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外,还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。
Dec, 2023
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
高效训练和推理高分辨率视觉 Transformer 模型的新策略是只保留 N 个随机窗口的高分辨率输入,通过学习窗口内的标记间的局部交互和窗口间的全局交互,模型能够直接处理高分辨率输入。这种策略在使用相对位置嵌入(如旋转嵌入)时表现出了显著的有效性,训练速度是全分辨率网络的 4 倍,而且与现有方法相比使用起来更加简单。将此策略应用于语义分割等密集视觉任务中,发现使用 2 个窗口的简单设置效果最佳,因此命名为 Win-Win 方法。将此策略进一步扩展到光流等双目任务中,达到了在 Spring 基准测试中超越最佳竞争对手一个数量级更快推理时间的最先进性能。
Oct, 2023
本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架,利用 4 种优化技术和生成对抗网络(GANs)启发的对抗性损失函数,用于图像去噪和修复,实验表明该框架在结构相似性(SSIM)方面比 U-Net 模型高出超过 3.5%,对于这两个任务,提议的增强算法进一步展示了超过基准的 extasciitilde5%SSIM 的改进。
Jul, 2023
研究提出了一种多阶段的 Vision Transformer 框架,用于细粒度图像分类,可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能,并在四个流行的细粒度基准测试中进行了实验,同时通过定性结果证明了模型的可解释性。
Jun, 2021
本文提出了一种简单的视觉 Transformer 设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021