Rel3D：一个简约对比基准，用于在三维空间中确认空间关系

Dec, 2020

Rel3D：一个简约对比基准，用于在三维空间中确认空间关系

Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations in 3D

Ankit Goyal, Kaiyu Yang, Dawei Yang, Jia Deng

TL;DR本文提出了一个新的 3D 地面真实数据集，并使用一种新的众包方法来降低数据集偏差，从而有效地预测空间关系，证明了最小对比数据收集的有效性以及其导致样本高效训练。

Abstract

Understanding spatial relations (e.g., "laptop on table") in visual input is important for both humans and robots. Existing datasets are insufficient as they lack large-scale, high-quality 3d ground truth information

spatial relations 3d ground truth information rel3d crowdsourcing method dataset bias

发现论文，激发创造

针对相对方向基于多任务学习方式构建的数据集：适合于我并不适合于你

本文提出了通过端到端神经网络来解决相对方向的归一化问题，并构建了 GRiD-3D 数据集以支持此研究。实验证明，当问题刺激相对定向问题的次任务时，回答相对定向的问题是可行的。

May, 2022

SPARE3D：基于三视线绘图的空间推理数据集

通过 SPARE3D 数据库，我们发现深度学习模型的空间推理性能要低于平均人类表现甚至接近随机猜测，这启示我们需要新的问题形式和网络设计来帮助智能机器人通过 2D 传感器在三维世界中高效运作。

Mar, 2020

通过多任务学习实现相对方向根据的全面 VQA 数据集：早期确定 “正确性” 含义

本文介绍了一种基于抽象物体的新型诊断性视觉问答数据集 GRiD-A-3D，以分析端到端 VQA 模型在相对方向上的地面能力的细粒度。同时，该数据集相对于现有数据集需要更少的计算资源，但具有相当甚至更高的性能。通过基于 GRiD-A-3D 训练的两个知名端到端 VQA 架构的彻底评估，本文证明了在相对指令直观处理的顺序中学习场景中物体的识别和定位以及估计它们内在方向的子任务。

Jul, 2022

3DRP-Net: 三维相对位置感知网络用于三维视觉对接

本研究提出了一种名为 3DRP-Net 的关系感知单阶段框架，能够有效捕捉物体之间的相对空间关系，并增强物体属性。通过分析对象对之间的相对关系和减少冗余点引起的空间模糊性，我们的方法在三个基准测试中均优于所有现有的方法。

Jul, 2023

迈向类人机理解：在视觉丰富文档中的少样关系学习

通过引入两个新的少样本基准数据集，本研究针对可视化丰富的文档（VRD）中的键 - 值关系三元组的提取，提出了一种变分方法，其中包含关系 2D 空间先验知识和原型化校正技术，实验结果表明该方法的有效性，并为实际应用开辟了新的可能性。

Mar, 2024

3D 视觉定位的双属性空间关系对齐

提出了 DASANet，一种用于模型属性和空间关系特征的双重对齐网络，能够实现在语言和 3D 视觉模态之间建立联系，提高基于 3D 视觉的定位准确性。

Jun, 2024

视觉关系的弱监督学习

本文介绍了一种新的建模视觉关系方法，设计了强大而灵活的视觉特征，提出了一种弱监督判别式聚类模型来从仅具有图像级标签的数据中学习关系，并引入了一个新的具有挑战性的数据集（UnRel）和详尽的注释，用于准备评估视觉关系检索。实验结果表明，本文提出的模型在视觉关系数据集上取得了显著的提高，并在新引入的 UnRel 数据集上验证了该观察结果的有效性。

Jul, 2017

CHORUS: 学习从无限合成图像中的规范化三维人体 - 物体空间关系

我们提出了一种教导机器以自监督方式理解并建模多种 3D 人物 - 物体相互作用的基础空间常识的方法。我们利用生成模型生成高质量的 2D 图像，并展示了这些合成图像足以学习 3D 人物 - 物体之间的空间关系。

Aug, 2023

SpatialSense: 一种对空间关系识别进行对抗众包测试的基准

通过对稀少的空间关系的分类来构建 SpatialSense 数据集，该数据集可以提供计算机视觉领域的基准测试，引入敌对性众包来降低数据集偏见并且 samples 更有趣的关系，结果表明现有的先进模型表现出与简单基线相当的性能。

Aug, 2019

基于文本的图像检索的全面三维场景抽象生成

使用物理关系模型，通过将虚构的抽象物体布局与文本描述中存在的空间约束相匹配来从文本描述中推断 3D 结构，并通过将对象检测输出与表示为边界框的 2D 布局候选项进行匹配来评定图像排序，从而检索与场景的文本描述相匹配的图像，其性能优于基于对象出现直方图和学习的 2D 成对关系的基线方法。

Nov, 2016