一个重新参数化的视觉变换器（ReVT）用于领域通用的语义分割

Aug, 2023

一个重新参数化的视觉变换器（ReVT）用于领域通用的语义分割

A Re-Parameterized Vision Transformer (ReVT) for Domain-Generalized Semantic Segmentation

Jan-Aike Termöhlen, Timo Bartels, Tim Fingscheidt

TL;DR基于数据增强驱动的方法，使用重新参数化的视觉 Transformer（ReVT）和多模型训练后的权重平均化，实现语义分割的域通用化，在多个基准数据集上实现了 47.3％（之前的技术：46.3％）的小型模型和 50.1％（之前的技术：47.8％）的中型模型的最新 mIoU 性能，同时需要更少的参数，并且帧速率更高，与最佳之前的技术相比，易于实施，而且在推断期间不会增加任何计算复杂度。

Abstract

The task of semantic segmentation requires a model to assign semantic labels to each pixel of an image. However, the performance of such models degrades when deployed in an unseen domain with different data distributions compared to the training domain. We present a new →

semantic segmentation domain generalization augmentation-driven approach re-parameterized vision transformer miou performance

发现论文，激发创造

VLTSeg: 用于领域泛化语义分割的基于 CLIP 的视觉 - 语言表示简单转移

本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法，通过在源领域进行训练并在未见目标领域进行评估，提高了领域通用性。实验证明，该方法在域通用分割中的性能优于传统的视觉训练方法，取得了 7.6% mIoU 的提升。同时，在主流数据集上取得了 76.48% mIoU 的性能，超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力，并在当前排行榜上与最优方法并列第一。

Dec, 2023

更强，更少，更优：利用视觉基础模型进行领域通用语义分割

该研究中，我们首先评估和利用各种视觉基础模型（Vision Foundation Models）在域泛化语义分割（Domain Generalized Semantic Segmentation）中的应用。我们引入了一种名为 Rein 的强大微调方法，通过利用更强的预训练模型和更少的可训练参数来提高模型的泛化能力。实验证明，Rein 在各种设置下明显优于现有方法，并在 Cityscapes 数据集上获得了令人惊讶的 68.1% 的 mIoU，而仅使用了额外 1% 的可训练参数。

Dec, 2023

RVT: 用于 3D 对象操作的机器人视图变换器

本研究提出 RVT，一种基于多视角变形器的三维物体操作方法，在模拟和实际环境中均表现出色，相对于现有方法，其训练速度快 36 倍，推理速度快 2.3 倍，并仅需每项任务约 10 次演示即可达到良好的效果。

Jun, 2023

走向强健的视觉 Transformer

研究发现，很多 ViT 组件对鲁棒性有害，因此提出使用鲁棒组件构建 Robust Vision Transformer（RVT）网络，并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能，实验结果显示 RVT 在多项鲁棒性测试中表现优秀。

May, 2021

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

多尺度高分辨率视觉 Transformer 用于语义分割

HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成，探索异构分支设计，减少线性层中的冗余并增强注意力块的表现力，从而在 ADE20K 和 Cityscapes 数据集达到 50.20％和 83.16％的 mIoU 优化性能和效率，比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU，参数节省 28％，FLOPs 减少 21％。

Nov, 2021

使用重新排序变换器进行实例级别图像检索

本文提出了一种新的模型 Reranking Transformers (RRTs)，它可以在有监督的环境下整合全局和局部特征，以重排匹配的图像，从而替代代价较高的基于几何验证的过程。经实验表明，该模型的性能优于以前的重排序方法，且使用更少的本地描述符达到更好的结果。

Mar, 2021

使用双向编码器视觉变换器进行领域泛化

本文旨在探讨如何在面对数据分布与所训练模型不同的情况下，通过使用视觉转换器架构进行域泛化，并取得了显著的验证和测试准确度提高，成功地克服了内部分布和超出分布数据之间的差距。

Jul, 2023

RMT：记忆网络与视觉转换器的结合

我们结合了 RetNet 和 Transformer 提出了 RMT，通过引入显式衰减和空间先验知识的方式，使得 RMT 在计算机视觉任务中表现出卓越的性能。

Sep, 2023

自主学习视觉 Transformer 用于领域泛化

本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题，并在五个具有挑战性的数据集上实现了显著的性能提升，同时表现出了对最新领域泛化方法的优异性。

Jul, 2022