ODIN:一个用于 2D 和 3D 感知的单一模型
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023
提出了一个名为 Omni3D 的大型测试数据集,其中包含 234k 个图像,涵盖了 98 个类别和 300 万个实例。引入了 Cube R-CNN 模型,能够更好地检测和识别 3D 场景和物体。该数据集可用于加速对新数据集的学习和预训练。
Jul, 2022
ODIN 采用生成式 AI 模型,解决了基于数据集的零样本学习模型的固有限制问题。它主要包括三个模块:提示生成器,文本转图像生成器和图像后处理器。使用大型语言模型和文本到图像扩散模型生成高质量的提示和图像,进一步提高了模型的准确性和数据多样性,并证明了 ODIN 能够使 AI 在训练数据之外学习到未知知识。
Mar, 2023
该研究提出了一种名为 RD3D 的深度学习模型,其采用前编码器阶段的预聚合和后解码器阶段的深层特征融合来促进 RGB 和深度流的充分融合,并在 RGB-D 显着目标检测模型方面表现优于 14 种先进模型。
Jan, 2021
本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从 2D 特征中提取出 3D 分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。
May, 2023
提出了 UniSeg3D,这是一个统一的三维分割框架,可以在一个模型内完成全景、语义、实例、交互、指向性和开放词汇的语义分割任务。该方法将六个任务统一为由相同 Transformer 处理的统一表示,促进了任务间的知识共享,从而提升了对三维场景的综合理解。通过利用任务连接,通过设计知识蒸馏和对比学习方法,在多任务统一化的基础上提高了性能。在三个基准测试中的实验证明了 UniSeg3D 的优越性,即使是那些专门针对特定任务的方法也无法与之相比。希望 UniSeg3D 能够作为一个坚实的统一基准,并激发未来的研究。
Jul, 2024
通过系统调查四个在 3D 目标检测的鲁棒性和领域适应中常常被忽视的设计选择(架构、体素编码、数据增强和锚点策略)以及它们之间的相互作用,我们发现用本地点特征的 Transformer 主干比 3D CNN 更加鲁棒,在地理位置适应中关键是在测试时进行的锚点大小调整,源域数据增强允许模型推广到低分辨率传感器,而与预期相反,用干净的天气数据直接训练比用恶劣天气数据训练更能提高对恶劣天气的鲁棒性。我们总结了主要结论和发现,为开发更加鲁棒的 3D 目标检测方法提供实际指导。
Feb, 2024
通过提出的 OS-Det3D 框架,利用特定训练的 3D 物体发现网络(ODN3D)和联合目标性选择(JOS)模块,提高相机 3D 检测器在鉴别已知和未知对象方面的能力,并在 nuScenes 和 KITTI 数据集上进行实验证明了该框架的有效性。
Jun, 2024
本文提出了一种基于 2D 图像标注来训练 3D 语义分割模型的方法,使用多视角融合来生成伪标签,并解决了选择可信的伪标签、较少目标分类、在训练过程中如何脱离 2D 图像等问题。实验结果表明,所提出的 2D3DNet 网络在一个新的城市数据集上的表现显著优于基线方法。
Oct, 2021