通过遮蔽图像建模实现更好的三维知识转移，用于多视角三维理解

Mar, 2023

通过遮蔽图像建模实现更好的三维知识转移，用于多视角三维理解

Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding

Jihao Liu, Tai Wang, Boxiao Liu, Qihang Zhang, Yu Liu...

TL;DR本文提出了一种名为 GeoMIM 的多相机视觉转换器，通过预训练 - 微调的方法将 LiDAR BEV 模型的知识传递给 GeoMIM，以改善多视图基于相机的三维检测，并在 nuscenes 基准测试中取得了最新的表现。

Abstract

multi-view camera-based 3d detection is a challenging problem in computer vision. Recent works leverage a pretrained lidar detection model to transfer knowledge to a camera-based student network. However, we argu

multi-view camera-based 3d detection lidar detection model geometry enhanced masked image modeling cross-view attention camera-based 3d object detection

发现论文，激发创造

MIM4D：多视角视频遮蔽建模的自动驾驶表示学习

从大规模多视角视频数据中学习强大且可扩展的视觉表征仍然是计算机视觉和自动驾驶领域的一项挑战。我们提出了 MIM4D，一种基于双重遮罩图像建模（MIM）的新的预训练范例，它通过训练遮罩的多视角视频输入来利用空间和时间关系，从而构建伪 3D 特征并进行监督学习，以解决缺乏密集 3D 监测的问题。通过采用 3D 体积可微分渲染来学习几何表征，MIM4D 在自动驾驶中的可视表征学习任务中取得了最先进的性能，显著提高了多个下游任务的表现。

Mar, 2024

DistillBEV：利用跨模态知识蒸馏提升多摄像头三维目标检测

通过训练基于多视角鸟瞰图（BEV）的学生检测器来模仿经过训练的基于 LiDAR 的教师检测器的特征，从而提高多视角 BEV 的表示学习，并通过有效的平衡策略和多尺度层的时间融合实现知识传输，实验证明该方法在多个多视角 BEV 模型上显著改善了学生模型，达到了流行基准 nuScenes 的最新性能。

Sep, 2023

面向视觉的三维目标检测的几何感知预训练

提出了一种名为 GAPretrain 的几何意识预训练框架，通过使用几何丰富的模态和来自 LiDAR 点云的结构提示，实现跨不同模态之间的属性转移，从而解决多镜头自动驾驶中图像和视角不一致的问题，实现了很好的效果。

Apr, 2023

M-BEV：面罩 BEV 感知用于稳健自动驾驶

提出了一种能够在自动驾驶中改善鲁棒性和准确感知的 M-BEV 感知框架，通过随机遮挡和重建相机视图进行端到端训练，从而有效解决一个或多个视图摄像头无法工作的现实场景问题。

Dec, 2023

3M3D: 多视角、多路径、多表征 3D 目标检测

提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法，通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能，对于自动驾驶系统具有重要意义。

Feb, 2023

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

Occ-BEV: 通过三维场景重建实现多摄像机联合预训练

通过设计 3D 解码器来利用多视图图像的鸟瞰图（BEV）特征预测 3D 场景的占位情况，为多摄像头智能驾驶提供了一种先进的、可行的和经济高效的解决方案，并取得了显着提升的结果。

May, 2023

基于混合二维语义场景生成的 LiDAR 三维物体检测

本研究提出了一种将三维环境的语义和几何以二维形式编码的场景表示法，并使用辅助网络预测显式和隐式语义概率的组合作为更好的 BEV 特征学习的密集监督信号，实验证明该设计可以轻松集成到大多数先进的三维物体检测器中，并始终改善基线模型。

Apr, 2023

PMatch：用于密集几何匹配的成对掩蔽图像建模

本文通过对预训练模块重构和加入新模块，实现了稠密几何匹配任务的最优表现，并提供了相应的代码和模型。

Mar, 2023

基于遮罩的图像建模技术在三维医学图像分析中的应用进展

本文研究了遮蔽图像建模技术在医学三维图像分析中的应用，发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度，使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务，轻量级的解码器或投影头设计能够加快训练速度并降低成本，而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。

Apr, 2022