通过自监督静态 - 动态解缠缚，从单幅图像中查看 3D 物体

Jul, 2022

通过自监督静态 - 动态解缠缚，从单幅图像中查看 3D 物体

Seeing 3D Objects in a Single Image via Self-Supervised Static-Dynamic Disentanglement

Prafull Sharma, Ayush Tewari, Yilun Du, Sergey Zakharov, Rares Ambrus...

TL;DR本文提出一种无监督学习方法，通过观察未标记的多视角视频，学习将一个包含多种物体的复杂场景的单幅图像观察映射到一个三维神经场景表示，可以将该表示分解为可移动和不可移动的部分，并通过神经渲染进行自监督训练，从而实现基于对象的三维表示、新视角合成、实例分割和三维边界框预测等多种下游任务，并通过对象操作（如删除、插入和刚体运动）实现场景编辑。

Abstract

Human perception reliably identifies movable and immovable parts of 3D scenes, and completes the 3D structure of objects and background from incomplete observations. We learn this skill not via labeled examples, but simply by observing objects move. In this work, we propose an approach

3d scene representation movable and immovable parts neural rendering self-supervised learning scene editing

发现论文，激发创造

视频自编码器：静态三维结构和运动的自我监督解缠

本论文提出了一个自监督学习的视频自编码器，能够从视频中学习出 3D 结构和相机姿态的解耦表示，通过重组这些表示来实现诸如新视角合成、相机姿态估计以及运动跟踪的任务。

Oct, 2021

用单目图像学习具有解缠几何和外观的 3D 生成模型

本文提出了一种基于 3D 生成模型的非刚性可变形场景表达方法，通过联合学习规范模型及其变形，并使用姿态正则化损失来改善模型的场景与摄影视角的分离性，同时还可以嵌入真实图像中并进行编辑。

Mar, 2022

通过布局学习实现解耦的 3D 场景生成

我们介绍了一种通过大型预训练的文本到图像模型实现对三维场景进行解缠的方法。我们的关键观点是，通过重新排列具有空间先验的三维场景的部分，可以发现物体的存在，并且这些重排后的场景仍然是原场景的有效配置。具体而言，我们的方法从头开始联合优化多个 NeRFs，每个 NeRF 代表一个物体，以及一组将这些物体合成为场景的布局。然后，我们鼓励这些合成的场景在图像生成器中符合分布。我们展示了尽管简单，我们的方法成功地生成了分解为个体物体的三维场景，从而在文本到三维内容创建中实现了新的功能。请参阅我们的项目页面，查看更多结果和交互式演示。

Feb, 2024

单目三维物体检测分离

该研究提出了一种通过单个 RGB 图像实现单目 3D 物体检测的方法，采用新颖的去耦合转换来实现 2D 和 3D 检测损失，以及一种新颖的自监督置信度分数来实现 3D 边界框。该方法通过隔离参数组对给定损失的贡献来解决了复杂互动参数存在的问题。同时，作者还通过改善 2D 检测结果的有符号交并比驱动损失来应用了损失去耦合。通过基于 KITTI3D 和 nuScenes 数据集的广泛实验评估和消融研究，该方法在车类别目标检测方面实现了新的最优成果。

May, 2019

解耦 3D 原型网络以进行少样本概念学习

本研究提出了一种神经网络架构，将 RGB-D 图像分离为物体的形状和样式以及背景场景的地图，并探索了它们在少样本三维物体检测和少样本概念分类的应用。

Nov, 2020

基于语义一致性的自监督单视图 3D 重建

我们提出了一种自监督的，单视图三维重建模型，通过 2D 图像和物体的轮廓预测目标物体的 3D 网格形状、纹理和相机姿势，该方法不需要三维监督，手动注释的关键点，物体的多视图图像或先前的 3D 模板，通过自监督地学习分类特定图像的部分分割，我们可以在重建网格与原始图像之间有效强制实现语义一致性，从而大大减少了模型在预测物体形状、纹理和相机姿态时的歧义，并且我们的模型可以不需要这些标签而轻松地推广到各种物体类别。

Mar, 2020

发现可移动的物体

本文针对对象发现这一问题，通过选择动态对象并使用自编码器提取图像特征并加入来自运动分割的弱学习信号，成功地从复杂场景中分离出运动和静止的动态对象，相较于其它抽象特征的方法在 KITTI 数据集上有更好的表现。

Mar, 2022

无监督发现部件、结构和动态

本文提出了基于无标注视频的 “物体部件、结构和动态模型”（PSD）模型，可以同时学习层次化、解耦合的物体表示以及物体部件的动态模型，并且在多个真实和合成数据集上都表现良好，实现了物体部件的分割、层次结构的构建以及运动分布的捕捉。

Mar, 2019

3D 人体姿势估计中的姿势和外貌解耦的理解

我们通过对自监督学习下三维人体姿势估计方法进行深入分析，测试了现有的分离表示学习方法从外貌信息中分离出姿势信息的程度，并发现这些方法的姿势编码包含了相当数量的外貌信息。

Sep, 2023

通过神经渲染在静态视频中进行自监督的三维人体姿势估计

本文介绍了一种利用自监督学习估算不需要人工标注的静态背景下单个人物的 2D 视频帧生成 3D 人体姿势的方法。作者采用射线投射技术进行人体模板的渲染，使神经网络可以对渲染结果进行优化，从而获得了令人满意的结果。

Oct, 2022