实现可传递的多模态感知表示学习自主性：NeRF-Supervised 遮蔽自动编码器

Nov, 2023

实现可传递的多模态感知表示学习自主性：NeRF-Supervised 遮蔽自动编码器

Towards Transferable Multi-modal Perception Representation Learning for Autonomy: NeRF-Supervised Masked AutoEncoder

Xiaohao Xu

TL;DR该论文提出了一种统一的自监督预训练框架，通过在神经辐射场 (NeRF) 中进行掩蔽多模态重建，实现可传输的多模态感知表示学习。实验证明，通过该方法学习到的表示对于多样化的三维感知下游任务（包括三维物体检测和 BEV 地图分割）具有良好的可迁移性，并且可享受掩蔽自编码器和神经辐射场机制的协同效应。

Abstract

This work proposes a unified self-supervised pre-training framework for transferable multi-modal perception representation learning via masked multi-modal reconstruction in Neural Radiance Field (NeRF), namely

self-supervised pre-training multi-modal perception nerf-supervised masked autoencoder transferability 3d perception

发现论文，激发创造

自监督先训练用于可迁移多模态感知

这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式，利用 NeRF 支持的遮蔽自动编码器（NS-MAE）来提供高效且高性能的微调的预训练模型初始化，通过在神经辐射场（NeRF）中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据，证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性，该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估，例如 3D 对象检测和 BEV 地图分割。

May, 2024

NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场

神经场在计算机视觉和机器人技术中表现出色，能够理解三维视觉世界，例如推断语义、几何和动态。我们使用神经场进行自监督预训练，尤其是使用遮盖的自动编码器从 RGB 图像生成有效的三维表示，然后将标准的三维视觉 Transformer 应用于 NeRF 来进行特定形式的训练。我们利用 NeRF 的体积网格作为 Transformer 的密集输入，与像点云等其他三维表示进行对比。通过将相机轨迹用于采样，我们提取了可以规范化不同域中场景的显式表示。我们的目标是通过遮盖 NeRF 的辐射和密度网格的随机补丁并使用标准的三维 Swin Transformer 重建这些补丁，从而使模型能够学习完整场景的语义和空间结构。我们在自己提出的 posed-RGB 数据上规模化地对这个表示进行预训练，总共涉及超过 160 万幅图像。预训练后，编码器可以用于有效的三维迁移学习。我们提出的 NeRF-MAE 自监督预训练方法在各种具有挑战性的三维任务上表现出色，利用未标记的 posed 2D 数据进行预训练，相较于自监督三维预训练和 NeRF 场景理解基线，在 Front3D 和 ScanNet 数据集上的三维物体检测的 AP50 和 AP25 绝对性能提升分别超过 20％和 8％。

Apr, 2024

UniM$^2$AE：自主驾驶中统一的三维感知的多模态掩码自编码器

该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器（UniM$^2$AE）模型，通过将图像与激光雷达点云的特征融合，实现了对多模态数据的高效处理，提高了三维物体检测和鸟瞰图分割的效果。

Aug, 2023

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

远程感知中基于特征引导的遮罩自编码器实现自监督学习

以受限遮蔽图像模型为指导的自主学习在遥感中预训练视觉转换器方面引起了广泛关注。在本文中，我们探讨了光谱和空间遥感图像特征作为改进的自编码器重建目标。实验结果说明了 FG-MAE 在 SAR 图像方面的特殊增强效果，同时展示了 FG-MAE 的良好可扩展性，并发布了首批用于中分辨率 SAR 和多光谱图像的预训练视觉转换器。

Oct, 2023

模态不可知的元学习遮蔽自编码器的自监督学习

通过将 Masked Auto-Encoder（MAE）作为一个统一的、与模态无关的自监督学习框架，通过元学习对其进行解读，并从统一提高其在不同模态下的自监督学习的动机出发，我们提出了 MetaMAE。我们的关键思想是将 MAE 的掩码重构视为元学习任务，并通过未掩码标记的变换器元学习的涉及来预测掩码令牌。基于这个新颖的解读，我们提出了集成两种先进的元学习技术的方法。首先，我们使用基于梯度的元学习来适应变换器编码器的平均潜在因素以增强重构。然后，我们通过任务对比学习来最大化平均化和适应化潜在因素之间的对齐，从而指导变换器编码器更好地编码任务特定的知识。我们的实验证明了 MetaMAE 在与模态无关的自监督学习基准（称为 DABS）中的优越性，明显优于之前的基线。

Oct, 2023

Fus-MAE：一种基于交叉注意力的遥感掩码自编码器数据融合方法

Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with contrastive learning strategies in SAR-optical data fusion.

Jan, 2024

无感知，更高效产出：用掩码自编码器预训练 LiDAR 感知以实现超高效 3D 感知

通过提出低成本 LiDAR 感知数据流、径向遮罩自编码等方法，减少能量消耗并提高预测准确性，以便在无人机器人和自主导航中节省传感器的能量和延长电池寿命。

Jun, 2024

多模态掩蔽自编码器用于动态情绪识别

本文提出了一种名为多模态蒙特卡洛自动编码器（MultiMAE-DER）的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型，通过简单直接的微调实现 MultiMAE-DER。该方法通过优化六种多模态输入序列融合策略来提高 MultiMAE-DER 的性能，解决了跨域数据中的动态特征相关性问题。与现有的多模态监督学习模型相比，MultiMAE-DER 在 RAVDESS 数据集上的加权平均召回率（WAR）提高了 4.41％，在 CREMAD 上提高了 2.06％。此外，与多模态自监督学习的最新模型相比，MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86％。

Apr, 2024

掩码自编码器是强大的神经架构搜索学习者

提出了一种基于遮蔽自编码器的新型神经架构搜索（NAS）框架，该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标，我们的方法能够在不损害性能和泛化能力的情况下，有效地发现网络架构。此外，我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search（DARTS）方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性，并提供了其优于基线方法的经验证据。

Nov, 2023