基于文本的图像检索的全面三维场景抽象生成

CVPRNov, 2016

基于文本的图像检索的全面三维场景抽象生成

Generating Holistic 3D Scene Abstractions for Text-based Image Retrieval

Ang Li, Jin Sun, Joe Yue-Hei Ng, Ruichi Yu, Vlad I. Morariu...

TL;DR使用物理关系模型，通过将虚构的抽象物体布局与文本描述中存在的空间约束相匹配来从文本描述中推断 3D 结构，并通过将对象检测输出与表示为边界框的 2D 布局候选项进行匹配来评定图像排序，从而检索与场景的文本描述相匹配的图像，其性能优于基于对象出现直方图和学习的 2D 成对关系的基线方法。

Abstract

Spatial relationships between objects provide important information for text-based image retrieval. As users are more likely to describe a scene from a real world perspective, using 3d spatial relationships rathe

text-based image retrieval 3d spatial relationships object layouts physical relation models image ranking

发现论文，激发创造

利用丰富的词汇基础实现文本到三维场景生成

该论文介绍了如何使用自然语言描述来学习将文本场景映射到三维几何表示中的方法，并且使用基于规则的方法来生成三维场景的方法得到了改进。他们还引入了一种自动化评估度量来评估生成的 3D 场景。

May, 2015

CHORUS: 学习从无限合成图像中的规范化三维人体 - 物体空间关系

我们提出了一种教导机器以自监督方式理解并建模多种 3D 人物 - 物体相互作用的基础空间常识的方法。我们利用生成模型生成高质量的 2D 图像，并展示了这些合成图像足以学习 3D 人物 - 物体之间的空间关系。

Aug, 2023

通过整体三维场景理解生成视觉空间描述

本文研究了如何使用三维场景特征来提高视觉空间描述（VSD）的准确度和多样性，通过构建一个基于目标对象的三维空间场景图和场景子图选择机制，从而实现更加多样空间的文本生成，实验证明这种方法在视觉空间关系复杂的情况下表现明显优于基线模型。

May, 2023

使用隐式表示从单张图像中全面理解三维场景

本文提出了一种基于单幅图像的全面三维场景理解的新管道，该管道可以预测物体形状、物体姿态和场景布局，利用最新的深度隐式表示方法解决了物体形状和布局的不精确估计的问题，通过物理违规损失函数避免了物体之间的错误场景。实验结果表明，该方法在物体形状、场景布局估计和三维物体检测方面优于现有最先进技术。

Mar, 2021

学习三维物体的形状和布局，无需三维监督

本研究提出了一种基于多视图图像的方法，用于识别三维场景的对象形状和布局，通过在大型数据集上的实验，证明该方法可扩展应用于现实图像，并与依赖三维信息的方法相比，表现得更好。

Jun, 2022

从单幅图像中感知野外 3D 人体 - 物体空间排列

本文提出了一种在非受控环境下从野外拍摄的单张图像中推断人类和物体的空间布局和形状的方法，并证明了尝试联合考虑人类和物体可以通过引入 3D 常识约束来减少可能的 3D 空间配置。

Jul, 2020

文本到图像生成中的空间关系基准测试

本文研究基于大规模文本到图像合成 (T2I)，研究其中的空间理解能力，并提出了一个评估指标 VISOR，并引入一个大规模的数据集 SR2D 以及自动化评估管道，对 T2I 模型进行了大规模实验，发现其在多对象和空间关系生成方面存在严重限制和偏差，并提供了数据集和评估指标以支持 T2I 空间推理研究。

Dec, 2022

关于从点云中推断支撑关系和构建场景层次图的研究

这篇研究论文提出了一种自底向上的场景理解方法，通过推断点云中物体之间的支撑关系，利用场景中平面对的空间拓扑信息，实现了原始物体分类和支撑关系推理，并构建了包含原始级别和物体级别的场景层级图，该算法在原始分类和支撑关系推理方面表现出色，而场景层级图则包含了丰富的几何和拓扑信息，并具有很好的可扩展性。

Apr, 2024

通过布局学习实现解耦的 3D 场景生成

我们介绍了一种通过大型预训练的文本到图像模型实现对三维场景进行解缠的方法。我们的关键观点是，通过重新排列具有空间先验的三维场景的部分，可以发现物体的存在，并且这些重排后的场景仍然是原场景的有效配置。具体而言，我们的方法从头开始联合优化多个 NeRFs，每个 NeRF 代表一个物体，以及一组将这些物体合成为场景的布局。然后，我们鼓励这些合成的场景在图像生成器中符合分布。我们展示了尽管简单，我们的方法成功地生成了分解为个体物体的三维场景，从而在文本到三维内容创建中实现了新的功能。请参阅我们的项目页面，查看更多结果和交互式演示。

Feb, 2024

从图像中进行的无监督三维结构学习

本文提出一种从 2D 图像中学习生成 3D 结构的深度生成模型，并通过概率推断从 3D 和 2D 图像中恢复这些结构，从而实现了第一个纯无监督学习下学习推断 3D 表示的方法，并在几个数据集上建立了基准模型。

Jul, 2016