VG4D：视觉语言模型进入 4D 视频识别

Apr, 2024

VG4D：视觉语言模型进入 4D 视频识别

VG4D: Vision-Language Model Goes 4D Video Recognition

Zhichao Deng, Xiangtai Li, Xia Li, Yunhai Tong, Shen Zhao...

TL;DR通过 Vision-Language Models Goes 4D (VG4D) 框架，我们将 VLM 知识从视觉 - 文本预训练模型转移到 4D 点云网络中，实现了增强的识别性能。我们还提出了改进的 PSTNet 版本 im-PSTNet 来增强 4D 编码器，并通过实验证明了我们方法在动作识别方面达到了最先进的性能。

Abstract

Understanding the real world through point cloud video is a crucial aspect of robotics and autonomous driving systems. However, prevailing

point cloud video robotics autonomous driving systems vision-language models 4d point cloud recognition

发现论文，激发创造

文本和 3D 点云的联合表示学习

本文提出了一种新型的 Text4Point 框架，通过利用 2D 图像作为连接点云和语言模态的桥梁，建立图像和点云的对应关系，从而通过对比学习将其对齐；并进一步引入文本查询模块，查询点云特征的文本嵌入，将语言信息整合到 3D 表示学习中，提高各种下游任务的性能。

Jan, 2023

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

X4D-SceneFormer: 通过跨模态知识迁移增强 4D 点云视频的场景理解

4D 点云理解领域中的 X4D-SceneFormer 框架通过跨模态知识传递和 Transformer 架构的时间关系挖掘，增强了 4D 场景理解，在动作识别和语义分割等各种 4D 点云视频理解任务中取得了卓越的性能，超过了最新技术水平。

Dec, 2023

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

3D-VLA：一个基于三维视觉 - 语言 - 动作的生成式世界模型

提出了一种基于 3D 感知、推理和行动的生成世界模型的 3D-VLA 模型，通过引入一系列交互令牌与具体环境进行交互，训练一系列融入大规模 3D 语言模型的生成扩散模型以预测目标图像和点云，并在大规模数据集上的实验中展示了 3D-VLA 在推理、多模态生成和规划能力上的显著改进，展示了其在真实世界应用中的潜力。

Mar, 2024

GPT-4V (ision) 自动驾驶中的视觉语言模型的早期探索

该研究论文评估了最新的先进视觉语言模型（VLM）在自动驾驶场景中的应用，发现该模型在场景理解和因果推理方面表现出优越性能，但在方向辨别、交通信号识别、视觉对接以及空间推理任务方面仍存在挑战。

Nov, 2023

基于几何驱动的零样本三维点云理解聚合

通过利用点云的几何结构改进传输的视觉 - 语言模型，我们提出了首个无需训练的聚合技术，通过几何和语义的点级推理，在分类、部件分割和语义分割等三个任务中取得了新的技术优势。

Dec, 2023

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的 3D-LLMs，将 3D 世界引入大型语言模型，并利用 3D point clouds 进行各种 3D 相关任务，通过我们设计的提示机制收集了超过 300k 的 3D 语言数据，实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法，并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。

Jul, 2023

学习的多模态对齐的 4D-Net

4D-Net 是一种使用 3D 点云和 RGB 感知信息，利用动态连接学习和几何约束来进行三维物体检测的方法。在 Waymo Open Dataset 上，相较于现有方法和强基线，其利用运动线索和密集图像信息更能成功检测到远处的物体。

Sep, 2021

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022