SIMONe：通过无监督视频分解实现视角不变、时间抽象的物体表示

Jun, 2021

SIMONe：通过无监督视频分解实现视角不变、时间抽象的物体表示

SIMONe: View-Invariant, Temporally-Abstracted Object Representations via Unsupervised Video Decomposition

Rishabh Kabra, Daniel Zoran, Goker Erdogan, Loic Matthey, Antonia Creswell...

TL;DR通过无监督变分方法，我们提出了一种模型——SIMONe，能够抽取场景的组成结构，学习并表示场景中各个物体的不依赖于视角的属性，并且可以实现视角合成和实例分割。

Abstract

To help agents reason about scenes in terms of their building blocks, we wish to extract the compositional structure of any given scene (in particular, the configuration and characteristics of objects comprising the scene). This problem is especially difficult when scene structure need

发现论文，激发创造

GENESIS：基于物体中心的隐式表示生成场景推理和采样

本文介绍一种名为GENESIS的三维视觉场景对象生成模型，通过捕捉场景组件之间的关系，能够分解和生成场景，并在公开数据集上进行了性能评估和半监督学习。

Jul, 2019

基于视频序列的无监督物体表示基准测试

研究了四种基于物体的表征方法的感知能力，设计了一个基准测试集来评估物体检测、分割和跟踪的基本感知能力，并发现具有非约束潜在表征的架构比基于空间变换器的架构具有更强的物体感知能力。

Jun, 2020

无监督视频分解基于时空迭代推理

该研究提出了一种新的时空迭代推理框架，用于联合建模复杂的多物体表示和帧间的显式时间依赖关系，在后验精化中利用2D-LSTM和时间条件推理和生成，以提高场景分解、分割和预测的能力，即使没有颜色信息也有高准确度。

Jun, 2020

面向结构模型视频预测的可解释潜空间

我们提出了一种物体为中心的模型，使用图神经网络中的对比学习在潜在空间中预测未来的状态，并注入了显式归纳偏置以帮助提高模型的预测准确性。我们的模型不仅可捕捉物体交互作用，而且能够提高物体位置的定位能力，且实验表明我们的模型在多个领域中具有显著的优势。

Jul, 2021

基于条件的视频目标中心学习

该论文提出了一种弱监督学习方法，以对象为中心的表示和光流条件模型，可提高现实数据下的实例分割和追踪效果，改进了查询模型的灵活性，并扩展了应用范围。

Nov, 2021

从多个未指明的视点无监督学习构造场景表示

提出了一种基于深度生成模型的方法，通过将潜在的场景表示分为与视角无关和视角相关部分来学习多个未指定视角的组合场景表示，并采用神经网络来迭代集成不同视角中包含的信息. 实验表明该方法能够有效地从多个未指定视角学习.

Dec, 2021

面向复杂和自然视频的简单无监督物体中心学习

提出了STEVE，一种基于无监督学习的视频物体聚焦模型，通过使用基于Transformer的图像解码器进行重建观察来实现了对复杂和自然视频的有效性验证，并取得了显著的改进效果。

May, 2022

场景理解的分解神经表示

本研究提出了一种基于神经网络的场景表示方法，可以直接从RGB-D视频中学习物体级别的神经表示，并具有显式的对象运动编码和/或变形编码，该方法评估后表明具有高效性，可解释性和可编辑性。

Apr, 2023

多视角非监督式物体中心学习

通过提出一种深度生成模型，将潜在表示分为视点独立部分和视点相关部分，从多个未指定的视点学习构成性场景表示。在实验中，该方法能够有效地学习来自多个未指定视点的信息。

Jan, 2024

OSN：来自单目视频的动态3D场景的无限表示

通过引入OSN框架，本研究旨在学习与输入视频匹配的所有可能的三维场景配置，而不仅仅推断出一种具体的解决方案，通过使用简单而创新的对象尺度网络和联合优化模块来学习每个动态三维物体的准确尺度范围，从而尽可能采样多个忠实的三维场景配置，并通过在多个合成和真实数据集上进行广泛实验证明了我们的方法在动态新视图合成中超越了所有基线，并实现了更高的准确性，尤其在学习细粒度的三维场景几何中展现出明显优势。

Jul, 2024