3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

Aug, 2023

3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment

Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang...

TL;DR提出了 3D-VisTA，一个用于 3D 视觉和文本对齐的预训练 Transformer 模型，可轻松适应各种下游任务，通过在 ScanScribe 数据集上进行预训练，获得了在各种 3D-VL 任务上的最先进结果，同时展示了出色的数据效率。

Abstract

3d vision-language grounding (3D-VL) is an emerging field that aims to connect the 3D physical world with natural language, which is crucial for achieving embodied intelligence. Current 3D-VL models rely heavily on sophisticated modules, auxiliary losses, and optimization tricks, which

3d vision-language grounding 3d-vista scanscribe pre-training downstream tasks

发现论文，激发创造

T3D：通过视觉 - 语言预训练实现三维医学图像理解

T3D 是为高分辨率 3D 医学图像设计的首个 VLP 框架，通过两个文本感知的预训练任务，即文本感知的对比学习和文本感知的图像恢复，从高分辨率的 3D 医学图像中学习 3D 视觉表示，整合临床知识，拥有在器官和肿瘤分割以及疾病分类等任务中显著优于现有 vSSL 方法的潜力。

Dec, 2023

基于视觉语义对齐的弱监督三维视觉定位

基于大规模视觉 - 语言模型的弱监督学习方法，利用 2D 图像和 3D 点云之间天然存在的对应关系，无需精细标注的边界框注释，通过学习文本 - 3D 对应，实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明，3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。

Dec, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023

文档布局分析的视觉网格变换器

本文介绍了 VGT 模型，它是一种双流视觉格点变换器，通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解，利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外，还通过 D$^4$LA 数据集，在文档布局分析中达到了最新的最佳性能。

Aug, 2023

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

从 2D 视觉 Transformer 开始解决 3D 视觉任务？

本文提出一种通用的视觉转换器（Visual Transformer），名为 Simple3D-Former，可用于高效地进行 2D 和 3D 任务的训练和预测，并且相比高度定制的 3D 特有设计实现了惊人的鲁棒性，同时利用大规模现实 2D 图像的预训练权重可免费提高 3D 任务的性能.

Sep, 2022

Mask3D：通过学习掩码的 3D 先验知识预训练 2D 视觉 Transformer

提出了一种名为 Mask3D 的预训练方法，可以将现有的大规模 RGB-D 数据应用于自监督预训练中，将 3D 先验嵌入到 2D 的学习特征中，并对多个场景理解任务产生了改进，尤其是语义分割。

Feb, 2023

VisionGPT-3D：增强 3D 视觉理解的综合多模态代理

文本向视觉组成件的演变有助于人们的日常生活，计算机视觉模型包括多模态能力，最近的研究关注于基于明确对象的图片检测和分类，然而与问题不匹配的算法可能导致不良结果，为了应对这个挑战，我们提出了统一的 VisionGPT-3D 框架来巩固最先进的视觉模型并促进面向视觉的人工智能的发展。

Mar, 2024

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023