交叉视图 Transformer 用于实时地图视角语义分割

CVPRMay, 2022

交叉视图 Transformer 用于实时地图视角语义分割

Cross-view Transformers for real-time Map-view Semantic Segmentation

Brady Zhou, Philipp Krähenbühl

TL;DR本文提出了一种名为 Cross-View Transformers 的注意力机制模型，能够在不需要显式几何建模的情况下，从多个相机的视角中学习到语义分割的图像表示，并进行了实时性能验证。

Abstract

We present cross-view transformers, an efficient attention-based model for map-view semantic segmentation from multiple cameras. Our archi

cross-view transformers attention-based model semantic segmentation position embeddings real-time

发现论文，激发创造

跨尺度分层 Transformer 结合语义对应增强注意力用于推断鸟瞰视角语义分割

本研究提出了一种基于跨尺度分层 Transformer 和对应增强注意力的语义分割训练方法，针对使用多相机视图图像进行 Bird's-eye-view（BEV）语义分割的问题，并在大量实验中证明了其性能优越性。

Apr, 2023

跨注意力时空上下文变换器用于历史地图语义分割

提取历史地图的信息是一项具有挑战性的任务，尤其是在考虑到数据依赖性不确定性的情况下，我们提出了一种融合时空特征和交叉注意力变换器的 U-Net 网络（U-SpaTem），该模型在分割任务上表现出比其他方法更好的性能。

Oct, 2023

CVSformer: 用于语义场景补全的交叉视图融合变压器

本文提出了一种称为 CVSformer 的方法，其中包括多视角特征合成和跨视角变压器，用于学习跨视角对象关系，在公共数据集上取得了最先进的结果。

Jul, 2023

CT-MVSNet: 交叉尺度变换的高效多视角立体视觉

本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示，同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法，以提高深度估计的准确性。实验证明，这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。

Dec, 2023

TransGeo: 跨视图图像地理定位的完整解决方案 ——Transformer Is All You Need

本研究提出了一种基于纯 Transformer 的方法（TransGeo）来针对交叉视图图像地理定位中的局限性，通过全局信息建模和显式位置信息编码等优势，结合了注意力引导的非均匀裁剪方法以实现性能优化，结果表明该方法在城市和乡村数据集上取得了最优结果，并显著降低了计算成本。

Mar, 2022

多视角变换器用于视频识别

本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型，通过实现不同空间和时间的分辨率，利用多个 encoder 对视频进行建模，从而在六个标准数据集上取得了最优秀的结果。

Jan, 2022

跨模态视觉转换器的交互式图像分割

本研究提出一种交互式图像分割网络，利用跨模态视觉 transformers 来更好地指导学习过程，并且在多个基准测试中实现了优越的性能表现，具有实用的注释工具潜力。

Jul, 2023

基于级联语义引导的多通道关注选择生成对抗网络用于跨视角图像翻译

本文提出了一种名为多通道注意力 SelectionGAN 的新方法，该方法可以基于场景图像和新颖的语义地图生成任意视点中自然场景图像，并通过注意力机制和像素损失优化，经过 Dayton，CVUSA 和 Ego2Top 数据集的实验验证，该方法在跨视图图像翻译方面比现有技术有了显著的改进

Apr, 2019

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

CrossFormer: 基于跨尺度注意力实现多功能视觉 Transformer

本研究提出了 CEI 和 LSDA 来解决现有视觉 transformer 无法处理不同尺度特征相互作用的问题，并基于多尺度注意力模块设计了一种适用于可变尺寸输入的通用视觉架构 CrossFormer.

Jul, 2021