从单幅图像理解 3D 物体交互
这篇研究提出了一个新的机器学习模型,利用人类的行为、动作、动作具体区域等特征来预测目标对象的位置, 实现在图像中精确识别人体与目标物之间的互动关系,为实现目标识别和视觉感知提供了新的思路。
Apr, 2017
通过人类互动来推断三维物体及其姿势是可能的,即使用户只是在模仿功能而没有实体物体,此方法对 XR / VR 应用是可行的。
Jun, 2023
本研究提出了一种基于多视图图像的方法,用于识别三维场景的对象形状和布局,通过在大型数据集上的实验,证明该方法可扩展应用于现实图像,并与依赖三维信息的方法相比,表现得更好。
Jun, 2022
本文提出了一种在非受控环境下从野外拍摄的单张图像中推断人类和物体的空间布局和形状的方法,并证明了尝试联合考虑人类和物体可以通过引入 3D 常识约束来减少可能的 3D 空间配置。
Jul, 2020
本研究通过应用基于 GPT-3 的大型语言模型的先验知识来推断人 - 物互动的多样化三维模型,通过提出一种基于行为调节模型的互动建模方法实现了对各种物体类别和互动类型的三维推理,从文本启示中推理人 - 物接触的关键洞察是大型文本模型能够帮助推理。通过在大型人 - 物互动数据集上进行定量评估,表明该方法可以产生更好的 3D 重建结果,并进一步在真实图像上进行定性评估,展示了其在互动类型和物体类别方面的普适性。
Sep, 2022
利用仅依赖于大脑可访问的信息进行训练的图像序列和自我运动,我们开发了一种新颖的网络架构,能够同时学习从离散图像中分割对象、推断其三维位置和感知深度,从而作为预测学习的副产品有效地学习对象的表示。
Mar, 2024
研究了从 RGB 视频中重建人与关节物体交互的 3D 姿态,通过系统性实验验证了五种方法的可行性,结果显示这一任务具有很大挑战性并提出了未来工作方向。
Sep, 2022
本文提出了一种基于单幅图像的全面三维场景理解的新管道,该管道可以预测物体形状、物体姿态和场景布局,利用最新的深度隐式表示方法解决了物体形状和布局的不精确估计的问题,通过物理违规损失函数避免了物体之间的错误场景。实验结果表明,该方法在物体形状、场景布局估计和三维物体检测方面优于现有最先进技术。
Mar, 2021