从单幅图像理解 3D 物体交互

May, 2023

Understanding 3D Object Interaction from a Single Image

Shengyi Qian, David F. Fouhey

TL;DR本文提出一种基于 Transformer 的模型以实现机器的多物体理解，物体控制及 3D 场景探索，主要方法为预测物体的 3D 位置，物理属性及可访问性，通过自己收集和验证数据集来证明该模型对网络视频，比如第一人称视角视频和室内图像产生较好泛化能力。

Abstract

Humans can easily understand a single image as depicting multiple potential objects permitting interaction. We use this skill to plan our interactions with the world and accelerate understanding new objects without engaging in interaction. In this paper, we would like to endow machines with the similar ability, so that →

multi-object understanding intelligent agents 3d scene exploration object manipulation transformer-based model

发现论文，激发创造

检测和识别人 - 物交互

这篇研究提出了一个新的机器学习模型，利用人类的行为、动作、动作具体区域等特征来预测目标对象的位置，实现在图像中精确识别人体与目标物之间的互动关系，为实现目标识别和视觉感知提供了新的思路。

Apr, 2017

通过与物体交互学习物体

通过与 AI2-THOR 环境的互动，实现基于人类婴儿学习机制的计算框架，不依赖外部监督学习，从而有效地发现物体并学习物理特性。

Jun, 2020

物体弹出：是否可以仅从人类交互中推断出 3D 物体及其姿态？

通过人类互动来推断三维物体及其姿势是可能的，即使用户只是在模仿功能而没有实体物体，此方法对 XR / VR 应用是可行的。

Jun, 2023

学习三维物体的形状和布局，无需三维监督

本研究提出了一种基于多视图图像的方法，用于识别三维场景的对象形状和布局，通过在大型数据集上的实验，证明该方法可扩展应用于现实图像，并与依赖三维信息的方法相比，表现得更好。

Jun, 2022

从单幅图像中感知野外 3D 人体 - 物体空间排列

本文提出了一种在非受控环境下从野外拍摄的单张图像中推断人类和物体的空间布局和形状的方法，并证明了尝试联合考虑人类和物体可以通过引入 3D 常识约束来减少可能的 3D 空间配置。

Jul, 2020

一次性几何驱动的交互张量用于自我中心作用感知检测

利用几何信息推断三维场景中的互动信息和可能性，并在机器人和增强现实场景中进行实验，结果表明可以在新颖信搏的环境下以快速率进行预测。

Jun, 2019

利用常识先验知识重建动作条件下的人 - 物互动

本研究通过应用基于 GPT-3 的大型语言模型的先验知识来推断人 - 物互动的多样化三维模型，通过提出一种基于行为调节模型的互动建模方法实现了对各种物体类别和互动类型的三维推理，从文本启示中推理人 - 物接触的关键洞察是大型文本模型能够帮助推理。通过在大型人 - 物互动数据集上进行定量评估，表明该方法可以产生更好的 3D 重建结果，并进一步在真实图像上进行定性评估，展示了其在互动类型和物体类别方面的普适性。

Sep, 2022

通过预测学习三维物体为中心的表示

利用仅依赖于大脑可访问的信息进行训练的图像序列和自我运动，我们开发了一种新颖的网络架构，能够同时学习从离散图像中分割对象、推断其三维位置和感知深度，从而作为预测学习的副产品有效地学习对象的表示。

Mar, 2024

从 RGB 视频中构建 3D 人物 - 物体关系：方法和挑战的实证分析

研究了从 RGB 视频中重建人与关节物体交互的 3D 姿态，通过系统性实验验证了五种方法的可行性，结果显示这一任务具有很大挑战性并提出了未来工作方向。

Sep, 2022

使用隐式表示从单张图像中全面理解三维场景

本文提出了一种基于单幅图像的全面三维场景理解的新管道，该管道可以预测物体形状、物体姿态和场景布局，利用最新的深度隐式表示方法解决了物体形状和布局的不精确估计的问题，通过物理违规损失函数避免了物体之间的错误场景。实验结果表明，该方法在物体形状、场景布局估计和三维物体检测方面优于现有最先进技术。

Mar, 2021