MIM4D：多视角视频遮蔽建模的自动驾驶表示学习

Mar, 2024

MIM4D：多视角视频遮蔽建模的自动驾驶表示学习

MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving Representation Learning

Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang

TL;DR从大规模多视角视频数据中学习强大且可扩展的视觉表征仍然是计算机视觉和自动驾驶领域的一项挑战。我们提出了 MIM4D，一种基于双重遮罩图像建模（MIM）的新的预训练范例，它通过训练遮罩的多视角视频输入来利用空间和时间关系，从而构建伪 3D 特征并进行监督学习，以解决缺乏密集 3D 监测的问题。通过采用 3D 体积可微分渲染来学习几何表征，MIM4D 在自动驾驶中的可视表征学习任务中取得了最先进的性能，显著提高了多个下游任务的表现。

Abstract

Learning robust and scalable visual representations from massive multi-view video data remains a challenge in computer vision and autonomous driving. Existing →

visual representations massive multi-view video data pre-training methods mim4d autonomous driving

发现论文，激发创造

通过遮蔽图像建模实现更好的三维知识转移，用于多视角三维理解

本文提出了一种名为 GeoMIM 的多相机视觉转换器，通过预训练 - 微调的方法将 LiDAR BEV 模型的知识传递给 GeoMIM，以改善多视图基于相机的三维检测，并在 nuscenes 基准测试中取得了最新的表现。

Mar, 2023

M$^{3}$3D：使用多模态掩蔽自编码器学习 2D 图像和视频的 3D 先验

提出了一种名为 M$^{3}$3D 的新的预训练策略，该策略基于基于多模态遮蔽自编码器，可以利用三维先验和学习的跨模态表示，以增强颜色 - 深度数据之间的对应关系，并能在各种下游任务中提高性能。

Sep, 2023

基于遮罩的图像建模技术在三维医学图像分析中的应用进展

本文研究了遮蔽图像建模技术在医学三维图像分析中的应用，发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度，使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务，轻量级的解码器或投影头设计能够加快训练速度并降低成本，而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。

Apr, 2022

MIMIC：带有图像对应关系的遮蔽图像建模

提出了一种无需注释，挖掘多视的图像对来训练自监督模型，来提高预训练数据集的效果；在深度估计、语义分割等任务上，相比于基于注释的预训练和冻结表示，使用提出的 MIMIC 数据集训练的表示性能更好。

Jun, 2023

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

3M3D: 多视角、多路径、多表征 3D 目标检测

提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法，通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能，对于自动驾驶系统具有重要意义。

Feb, 2023

4M：大规模多模态蒙版建模

通过提出一种名为 4M 的多模态训练方案，将文本、图像、几何和语义模态，以及神经网络特征图等多种输入 / 输出模态统一到一个 Transformer 编码器 - 解码器模型中进行训练，论文展示了 4M 在训练多功能且可扩展的视觉基础模型方面的潜力和优势，并为多模态学习在视觉和其他领域的进一步探索提供了基础。

Dec, 2023

Mask3D：通过学习掩码的 3D 先验知识预训练 2D 视觉 Transformer

提出了一种名为 Mask3D 的预训练方法，可以将现有的大规模 RGB-D 数据应用于自监督预训练中，将 3D 先验嵌入到 2D 的学习特征中，并对多个场景理解任务产生了改进，尤其是语义分割。

Feb, 2023

Im4D: 动态场景的高保真实时新视角合成

本文介绍了一种名为 Im4D 的混合场景表示方法，在动态视图合成方面表现出了先进的性能和高效的训练能力。

Oct, 2023