Rel3D:一个简约对比基准,用于在三维空间中确认空间关系
本文提出了通过端到端神经网络来解决相对方向的归一化问题,并构建了 GRiD-3D 数据集以支持此研究。实验证明,当问题刺激相对定向问题的次任务时,回答相对定向的问题是可行的。
May, 2022
通过 SPARE3D 数据库,我们发现深度学习模型的空间推理性能要低于平均人类表现甚至接近随机猜测,这启示我们需要新的问题形式和网络设计来帮助智能机器人通过 2D 传感器在三维世界中高效运作。
Mar, 2020
本文介绍了一种基于抽象物体的新型诊断性视觉问答数据集 GRiD-A-3D,以分析端到端 VQA 模型在相对方向上的地面能力的细粒度。同时,该数据集相对于现有数据集需要更少的计算资源,但具有相当甚至更高的性能。通过基于 GRiD-A-3D 训练的两个知名端到端 VQA 架构的彻底评估,本文证明了在相对指令直观处理的顺序中学习场景中物体的识别和定位以及估计它们内在方向的子任务。
Jul, 2022
本研究提出了一种名为 3DRP-Net 的关系感知单阶段框架,能够有效捕捉物体之间的相对空间关系,并增强物体属性。通过分析对象对之间的相对关系和减少冗余点引起的空间模糊性,我们的方法在三个基准测试中均优于所有现有的方法。
Jul, 2023
通过引入两个新的少样本基准数据集,本研究针对可视化丰富的文档(VRD)中的键 - 值关系三元组的提取,提出了一种变分方法,其中包含关系 2D 空间先验知识和原型化校正技术,实验结果表明该方法的有效性,并为实际应用开辟了新的可能性。
Mar, 2024
提出了 DASANet,一种用于模型属性和空间关系特征的双重对齐网络,能够实现在语言和 3D 视觉模态之间建立联系,提高基于 3D 视觉的定位准确性。
Jun, 2024
本文介绍了一种新的建模视觉关系方法,设计了强大而灵活的视觉特征,提出了一种弱监督判别式聚类模型来从仅具有图像级标签的数据中学习关系,并引入了一个新的具有挑战性的数据集(UnRel)和详尽的注释,用于准备评估视觉关系检索。实验结果表明,本文提出的模型在视觉关系数据集上取得了显著的提高,并在新引入的 UnRel 数据集上验证了该观察结果的有效性。
Jul, 2017
我们提出了一种教导机器以自监督方式理解并建模多种 3D 人物 - 物体相互作用的基础空间常识的方法。我们利用生成模型生成高质量的 2D 图像,并展示了这些合成图像足以学习 3D 人物 - 物体之间的空间关系。
Aug, 2023
通过对稀少的空间关系的分类来构建 SpatialSense 数据集,该数据集可以提供计算机视觉领域的基准测试,引入敌对性众包来降低数据集偏见并且 samples 更有趣的关系,结果表明现有的先进模型表现出与简单基线相当的性能。
Aug, 2019
使用物理关系模型,通过将虚构的抽象物体布局与文本描述中存在的空间约束相匹配来从文本描述中推断 3D 结构,并通过将对象检测输出与表示为边界框的 2D 布局候选项进行匹配来评定图像排序,从而检索与场景的文本描述相匹配的图像,其性能优于基于对象出现直方图和学习的 2D 成对关系的基线方法。
Nov, 2016