本研究提出了一种基于跨尺度分层 Transformer 和对应增强注意力的语义分割训练方法,针对使用多相机视图图像进行 Bird's-eye-view(BEV)语义分割的问题,并在大量实验中证明了其性能优越性。
Apr, 2023
提取历史地图的信息是一项具有挑战性的任务,尤其是在考虑到数据依赖性不确定性的情况下,我们提出了一种融合时空特征和交叉注意力变换器的 U-Net 网络(U-SpaTem),该模型在分割任务上表现出比其他方法更好的性能。
Oct, 2023
本文提出了一种称为 CVSformer 的方法,其中包括多视角特征合成和跨视角变压器,用于学习跨视角对象关系,在公共数据集上取得了最先进的结果。
Jul, 2023
本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示,同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法,以提高深度估计的准确性。实验证明,这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。
Dec, 2023
本研究提出了一种基于纯 Transformer 的方法(TransGeo)来针对交叉视图图像地理定位中的局限性,通过全局信息建模和显式位置信息编码等优势,结合了注意力引导的非均匀裁剪方法以实现性能优化,结果表明该方法在城市和乡村数据集上取得了最优结果,并显著降低了计算成本。
Mar, 2022
本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型,通过实现不同空间和时间的分辨率,利用多个 encoder 对视频进行建模,从而在六个标准数据集上取得了最优秀的结果。
Jan, 2022
本研究提出一种交互式图像分割网络,利用跨模态视觉 transformers 来更好地指导学习过程,并且在多个基准测试中实现了优越的性能表现,具有实用的注释工具潜力。
本文提出了一种名为多通道注意力 SelectionGAN 的新方法,该方法可以基于场景图像和新颖的语义地图生成任意视点中自然场景图像,并通过注意力机制和像素损失优化,经过 Dayton,CVUSA 和 Ego2Top 数据集的实验验证,该方法在跨视图图像翻译方面比现有技术有了显著的改进
Apr, 2019
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。
Mar, 2021
本研究提出了 CEI 和 LSDA 来解决现有视觉 transformer 无法处理不同尺度特征相互作用的问题,并基于多尺度注意力模块设计了一种适用于可变尺寸输入的通用视觉架构 CrossFormer.
Jul, 2021