OpenDlign: 用深度对齐图像提升开放世界三维学习
通过使用视觉 - 语言(VL)基础模型,将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉 - 语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在 3D 语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
通过使用 Cross-MoST 优化框架,结合 CLIP 等 2D 视觉语言模型,可以提高无需标签的零样本 3D 视觉模型的分类性能,并且实现图像和点云模态之间的跨模态知识交流。
Apr, 2024
通过局部到全局的融合网络与双向结构对齐,本研究解决了视觉 - LiDAR 融合中由于两种模态之间内在数据结构不一致性而带来的挑战,取得了在 KITTI 里程计和 FlyingThings3D 场景流数据集上超过单模态和多模态方法的最新成果。
Mar, 2024
我们提出了一种基于实时 RGB 的管道来实现物体检测和六自由度姿态估计。我们的创新性三维方向估计基于域随机化训练的三维模型的模拟视图,采用了变体的降噪自编码器。我们称之为增强自编码器相较于现有方法具有多个优点:它不需要真实标注的训练数据,适用于各种测试传感器,固有的处理物体和视角对称性。我们提出了一种隐式表征物体方向的方法,定义了潜在空间内的样本,而不是学习从输入图像到对象姿态的显式映射。我们的管道在 T-LESS 数据集的 RGB 和 RGB-D 领域均取得了最新成果。我们还在 LineMOD 数据集上进行评估,其中我们可以与其他合成训练方法竞争。当物体偏离图像中心时,通过纠正三维方向估计来进一步提高性能,并展示了扩展结果。
Feb, 2019
本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。
Mar, 2023
为了解决 3D 数据与 2D 图像和文本的对齐问题带来的信息退化、协同不足和细节利用不充分的挑战,本文介绍了一种综合点云、文本和图像的综合方法 JM3D,其关键贡献是结构化多模态组织器和联合多模态对齐,通过高效的微调将 3D 表示与大型语言模型相结合,JM3D-LLM 在 ModelNet40 和 ScanObjectNN 的评估中表现出优势,进一步证明了我们的表示转换方法的有效性。
Oct, 2023
通过 Vision-Language Models Goes 4D (VG4D) 框架,我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中,实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器,并通过实验证明了我们方法在动作识别方面达到了最先进的性能。
Apr, 2024
通过引入多视图联合模态建模方法,该研究论文提出了一种名为 JM3D 的新方法,以解决 3D 表示学习中的信息降解和不足协同问题,并在零样本 3D 分类任务上取得了领先于现有方法的性能。
Aug, 2023
大规模重建模型在自动化三维内容生成方面取得了重大突破。然而,这些模型常常产生具有几何不精确性的三维网格,这是由于仅从图像数据推断三维形状的固有挑战所引起的。在本文中,我们介绍了一种新颖的框架,即大型图像与点云对齐模型(LAM3D),它利用三维点云数据增强了生成的三维网格的保真度。我们的方法从开发基于点云的网络开始,有效地生成精确而有意义的潜在三平面,为准确的三维网格重建奠定了基础。在此基础上,我们的图像 - 点云特征对齐技术通过处理单个输入图像,将其与潜在三平面对齐,使图像特征具备强大的三维信息。这个过程不仅丰富了图像特征,还有助于产生高保真度的三维网格,而无需多视图输入,大大降低了几何变形。我们的方法在仅 6 秒内实现了单个图像的最先进高保真度三维网格重建,并在各种数据集上的实验证明了它的有效性。
May, 2024
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。
Nov, 2022