通过整体三维场景理解生成视觉空间描述

May, 2023

通过整体三维场景理解生成视觉空间描述

Generating Visual Spatial Description via Holistic 3D Scene Understanding

Yu Zhao, Hao Fei, Wei Ji, Jianguo Wei, Meishan Zhang...

TL;DR本文研究了如何使用三维场景特征来提高视觉空间描述（VSD）的准确度和多样性，通过构建一个基于目标对象的三维空间场景图和场景子图选择机制，从而实现更加多样空间的文本生成，实验证明这种方法在视觉空间关系复杂的情况下表现明显优于基线模型。

Abstract

visual spatial description (VSD) aims to generate texts that describe the spatial relations of the given objects within images. Existing VSD work merely models the 2D geometrical vision features, thus inevitably falling prey to the problem of skewed spatial understanding of target obje

visual spatial description 3d scene features spatial semantics scene subgraph text generation

发现论文，激发创造

视觉空间描述：受控的空间定向图像到文本生成

提出了一种名为 VSD 的新的图像与文本方向，其着眼于空间语义，通过使用 VL-BART 和 VL-T5 作为支撑，构建了几个基准编码 - 解码模型，并在我们的基准测试集上进行实验，结果显示我们的模型性能令人印象深刻。同时 VSRC 将会有巨大的潜力，而联合端到端架构是更好的选择。

Oct, 2022

基于文本的图像检索的全面三维场景抽象生成

使用物理关系模型，通过将虚构的抽象物体布局与文本描述中存在的空间约束相匹配来从文本描述中推断 3D 结构，并通过将对象检测输出与表示为边界框的 2D 布局候选项进行匹配来评定图像排序，从而检索与场景的文本描述相匹配的图像，其性能优于基于对象出现直方图和学习的 2D 成对关系的基线方法。

Nov, 2016

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言 - 物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023

VL-SAT：三维语义点云场景图预测的视觉语言语义辅助训练

本文提出了一种名为 VL-SAT 的模型，通过多模态方案，以语言和视觉数据为基础，利用 Visual-Linguistic Semantics Assisted Training（VL-SAT）显著提升 3DSSG 预测模型的性能。通过有效地利用视觉语义性地训练，提高 3DSSG 预测模型的性能，进而对 3D 点云数据进行更好地解释。

Mar, 2023

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言，我们构建了一个大规模数据集 Mono3DRefer，其中包含具有对应的几何文本描述的 3D 目标，由 ChatGPT 生成并手动改进。为了促进此任务，我们提出了 Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

VP3D：释放 2D 视觉提示以实现文本到 3D 生成

通过可视化引导的扩散模型，从 2D 可视化提示中显式释放视觉外观知识以增强 3D 模型的生成。

Mar, 2024

利用丰富的词汇基础实现文本到三维场景生成

该论文介绍了如何使用自然语言描述来学习将文本场景映射到三维几何表示中的方法，并且使用基于规则的方法来生成三维场景的方法得到了改进。他们还引入了一种自动化评估度量来评估生成的 3D 场景。

May, 2015

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升，本研究旨在解决 3D 视觉语言面临的三个主要挑战，包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVerse 以及基于可扩展的场景图生成方法获取的约 2.5M 个视觉语言对，展示了 Grounded Pre-training for Scenes (GPS) 的有效性，通过在所有现有的 3D 视觉定位基准上取得了最先进的性能，并在具有挑战性的 3D 视觉语言任务的零样本迁移实验中揭示了 SceneVerse 和 GPS 的巨大潜力。

Jan, 2024

城市建筑师：带有布局先验的可操控的三维城市场景生成

通过引入一种组合式 3D 布局表示方法到文本转 3D 范式中的本文，克服了在大规模城市范围内扩展这一方法的局限性，并且成功地将文本转 3D 技术应用于覆盖超过 1000m 行驶距离的大尺度城市场景，同时展示了可调控城市场景生成的强大能力。

Apr, 2024

基于上下文感知的实体定位和开放词汇 3D 场景图

我们介绍了一种开放词汇的 3D 场景图（OVSG），它是一个形式化的框架，用于将各种实体，如物体实例、代理和区域，与自由文本查询进行关联。与传统的基于语义的物体定位方法不同，我们的系统支持上下文感知的实体定位，允许查询，如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比，OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明，我们提出的方法明显超越了以前基于语义的定位技术的性能。此外，我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。

Sep, 2023