细粒度图像到 LiDAR 对比蒸馏与视觉基础模型

May, 2024

细粒度图像到 LiDAR 对比蒸馏与视觉基础模型

Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models

Yifan Zhang, Junhui Hou

TL;DR通过利用 VFMs 的像素级语义增强三维表示学习，采用 von Mises-Fisher 分布对特征空间进行结构化，以解决对手法的挑战并在下游任务中始终优于现有的图像到 LiDAR 对比蒸馏方法。

Abstract

contrastive image-to-lidar knowledge transfer, commonly used for learning 3D representations with synchronized images and point clouds, often faces a self-conflict dilemma. This issue arises as contrastive losses unintentionally dissociate features of unmatched points and pixels that s

contrastive image-to-lidar knowledge transfer 3d representations visual foundation models (vfms)pixel-to-point contrastive distillation von mises-fisher distributions

发现论文，激发创造

基于点云到体素的知识蒸馏技术用于 LiDAR 语义分割

本文提出了一种基于点到体素知识蒸馏的方法，通过将隐藏层的知识从点级别和体素级别进行转移，采用困难感知的采样策略和点 - 体素相似度蒸馏，提高了 LiDAR 语义分割任务中教师模型向学生模型的知识压缩效果，同时在两个流行的基准数据集上实现了优于现有方法的精度和速度。

Jun, 2022

弱监督和半监督的三维语义分割的二维特征蒸馏

通过使用 RGB 图像提供场景的更密集表示，我们提出了一种基于图像引导网络（IGNet）的方法，该方法借鉴了通过域适应合成训练的 2D 语义分割网络中的高级特征信息，进一步利用了一种称为 FOVMix 的新型混合策略以解决两个传感器之间的水平视场不匹配问题，以增强图像引导效果，并在 ScribbleKITTI 上实现了弱监督 LiDAR 语义分割的最先进结果，与全监督训练相比，仅使用 8% 的标记点，无需额外的标注负担或推理中的计算 / 内存成本。此外，我们还展示了我们的方法在半监督训练中的有效性，IGNet 在 ScribbleKITTI 和 SemanticKITTI 上均取得了最先进的结果。

Nov, 2023

基于语义容忍对比损失的自监督图像到点位蒸馏

提出了一个新的语义容忍图像到点对比损失来缓解自我相似性问题，并通过类不可知平衡损失来解决类别失衡问题，从而在 3D 语义分割的所有评估设置中改善了最先进的 2D 到 3D 表示学习。

Jan, 2023

HVDistill：通过无监督混合视图蒸馏将图像知识转化到点云中

基于混合视图的知识蒸馏 (HVDistill) 框架用于指导点云神经网络的特征学习，通过利用 RGB 相机和 LiDAR 传感器之间的几何关系，在无监督的方式下建立了两种模态之间的对应关系，其中基于图像平面视图和鸟瞰图可以实现，这有助于表示学习。

Mar, 2024

特征蒸馏 Fine-tuning 中，对比学习与图像遮盖模型不相上下

研究发现通过简单的特征蒸馏，可以极大地提高预训练方法的微调性能，使其与基于遮挡图像模型的方法一样强大，在从事未来研究时，可以更加注重学习表示的普适性和可扩展性，而不需要过分关注其优化的友好性。

May, 2022

ELiTe: 高效的图像到 LiDAR 的知识转移用于语义分割

通过跨模态知识转移增强了点云表示学习在激光雷达语义分割中的应用，引入有效的知识转移策略和众多优化方法，得到了领先的性能并且具有较低的模型参数。

May, 2024

从 3D 到鸟瞰图的知识蒸馏用于 LiDAR 语义分割

该研究提出了一种有效的三维（3D）到 Bird's-Eye-View（BEV）知识蒸馏方法，将丰富的知识从基于 Voxel 的模型传递到基于 BEV 的模型，该方法应用于自动驾驶领域的 LiDAR 点云分割任务中，明显提高了准确性，SemanticKITTI 数据集是该研究的实验验证平台。

Apr, 2023

自监督表示学习的定位加速

通过数据驱动的前景显著性估计和复制粘贴来生成图像视图，实现对背景不变性的学习，从而训练代表性忽略背景内容并专注于前景的对比学习模型，并实现了在 ImageNet 分类和 PASCAL VOC、MSCOCO 目标检测上的显著性能提升。

Apr, 2020

图文检索的动态对比蒸馏

本研究提出了一种名为 DCD 的新型动态对比蒸馏框架，用于压缩大型 VLP 模型以改善跨模态图像文本检索（ITR）的效率和部署，其中涉及多模态对比学习、动态蒸馏等技术，实验证明在 MS-COCO 和 Flickr30K 基准上，将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。

Jul, 2022

DVLO：深度视觉 - LiDAR 里程计，使用局部到全局特征融合和双向结构对齐

通过局部到全局的融合网络与双向结构对齐，本研究解决了视觉 - LiDAR 融合中由于两种模态之间内在数据结构不一致性而带来的挑战，取得了在 KITTI 里程计和 FlyingThings3D 场景流数据集上超过单模态和多模态方法的最新成果。

Mar, 2024