3D 特征蒸馏与对象为中心先验

Jun, 2024

3D Feature Distillation with Object-Centric Priors

Georgios Tziafas, Yucheng Xu, Zhibin Li, Hamidreza Kasaei

TL;DR将自然语言与物理世界联系起来是一个应用广泛的话题，该论文提出了一种基于对象中心先验知识的多视角特征融合策略，用于改善基于 2D 和 3D 图像的自然语言 grounding 和语言引导机器人抓取任务。

Abstract

grounding natural language to the physical world is a ubiquitous topic with a wide range of applications in computer vision and robotics. Recently, 2D vision-language models such as CLIP have been widely popularized, due to their impressive capabilities for open-vocabulary grounding in

grounding natural language 2d vision-language models 3d feature distillation object-centric priors language-guided robotic grasping

发现论文，激发创造

蒸馏特征场在少样本语言引导操纵中的应用

使用自我监督学习和语言监督学习的图像模型，结合精确的 3D 几何知识和丰富的 2D 语义特征，提出一种在机器人操作中填补 2D 到 3D 差距的方法，实现对未知物体的自由文本自我指定和泛化到其他物体类别的能力。

Jul, 2023

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

我们提出了一种新方法，通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题，并提出了两个新的损失函数：物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明，我们的方法显著优于强基准模型。

Jan, 2024

室内场景解析的三维到二维提炼

该论文提出了一种新的室内场景语义分割方法，使用一个新的 3D-to-2D 分解框架，可以从大规模的 3D 数据中提取 3D 特征，以增强从 RGB 图像中提取的 2D 特征，并通过对其进行标准化和语义相关的对抗性训练对其进行改进。

Apr, 2021

弱监督和半监督的三维语义分割的二维特征蒸馏

通过使用 RGB 图像提供场景的更密集表示，我们提出了一种基于图像引导网络（IGNet）的方法，该方法借鉴了通过域适应合成训练的 2D 语义分割网络中的高级特征信息，进一步利用了一种称为 FOVMix 的新型混合策略以解决两个传感器之间的水平视场不匹配问题，以增强图像引导效果，并在 ScribbleKITTI 上实现了弱监督 LiDAR 语义分割的最先进结果，与全监督训练相比，仅使用 8% 的标记点，无需额外的标注负担或推理中的计算 / 内存成本。此外，我们还展示了我们的方法在半监督训练中的有效性，IGNet 在 ScribbleKITTI 和 SemanticKITTI 上均取得了最先进的结果。

Nov, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

基于三维视觉特征表示的具身化语言基础

提出结合语言表述和三维可视化的方法，通过生成模型和检测模型等工具，可以从图像中推理出三维可视特征图，并进一步实现语言方面的任务，如检测引用表达和物体放置策略。这种方法可以更好地进行全景视角和空间推理。

Oct, 2019

Paparazzi：深入探究语言和视觉模型在观点描述中的能力

本论文研究了 CLIP 模型在 3D 环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。

Feb, 2023

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

基于 3D 增强的对比知识蒸馏，用于基于图像的物体位姿估计

该研究论文提出了一种基于图像的物体姿态估计方法，利用多模态方法学习的 3D 知识通过对比知识蒸馏框架有效地转移给单模态模型，使其在没有 3D 信息的情况下提升物体姿态估计准确率，实验证明了该方法的有效性。

Jun, 2022