在混乱世界中观察物体：基于视频中的运动的计算物体特征

Feb, 2024

在混乱世界中观察物体：基于视频中的运动的计算物体特征

Seeing Objects in a Cluttered World: Computational Objectness from Motion in Video

Douglas Poland, Amar Saini

TL;DR通过计算方法，我们展示了利用运动线索和时空注意力来推断客观性而不需要对象模型的能力，并展示了如何在混乱的场景中稳健地感知个别被关注的对象，甚至在模糊和相机抖动的情况下。我们展示了数据多样性和扩增的作用，以最小化偏差并便于应用于真实视频，并描述了如何进一步提升这种计算对象性能力，从而构建一个稳健的模块化视频对象感知框架。

Abstract

Perception of the visually disjoint surfaces of our cluttered world as whole objects, physically distinct from those overlapping them, is a cognitive phenomenon called objectness that forms the basis of our visual perception. Shared by all vertebrates and present at birth in humans, it

objectness spatio-temporal attention motion boundaries attentional surface perception video object perception

发现论文，激发创造

物体性质的出现：从视频中学习零样本分割

该研究通过对视频中连续的视觉观察进行分组和运动建模，并在不需要外部监督的情况下通过区域流来自动学习区域分割和流估计，实现了从视频中全新的零样本目标分割。

Nov, 2021

学习移动物体的分割

本文提出了一种基于神经网络的视频分割方法，用于区分视频帧中独立运动的物体，并利用对象运动、外观和时间一致性等多个信息源，通过对数据进行训练得到模型，经过评估表明该模型在 DAVIS、Freiburg-Berkeley 运动分割数据集和 SegTrack 等数据集上表现良好。

Dec, 2017

基于条件的视频目标中心学习

该论文提出了一种弱监督学习方法，以对象为中心的表示和光流条件模型，可提高现实数据下的实例分割和追踪效果，改进了查询模型的灵活性，并扩展了应用范围。

Nov, 2021

从视频中无监督地发现 3D 物理对象

本文研究了无监督的物体发现问题。引入了 POD-Net 模型，通过物理学原理，从视频中精确提取出各个物体的 3D 几何和位置，同时推断物体的属性，从而可以用于推断物理事件。

Jul, 2020

发现可移动的物体

本文针对对象发现这一问题，通过选择动态对象并使用自编码器提取图像特征并加入来自运动分割的弱学习信号，成功地从复杂场景中分离出运动和静止的动态对象，相较于其它抽象特征的方法在 KITTI 数据集上有更好的表现。

Mar, 2022

使用神经网络捕捉视觉对象

本研究回顾了关于人类目标感知和深度神经网络模型在目标识别方面的相关工作，并探讨了这两个领域如何相互促进，提供了发展新实验任务和推动深度神经网络模型中的目标识别的基准的认知文献和实验任务。

Sep, 2021

3D 中对象的瞬时感知

驾驶安全中，周围交通参与者的 3D 运动感知至关重要。我们研究了一种被忽视的任务，即瞬时检测和量化微小运动，它们指示了与安全相关的驾驶行为的细微差异。通过解决静态对象在稀疏激光雷达点云的连续帧之间缺乏对应关系的问题，我们提出了一种解决方案，并设计了一个详细的基准。通过学习对象点云的局部占用完成来加密形状线索，并减轻游泳伪影的影响，从而解决了准确估计中的二义性问题。我们的方法较传统 3D 运动估计方法表现更好，特别突出了对微小运动的专门处理。

May, 2024

基于轨迹辅助的事件摄像头物体检测

在这篇论文中，我们考虑将不可见的物体视为伪遮挡物体，并旨在揭示它们的特征。我们提出了可视属性和自动标注算法来处理现有事件相机数据集，并利用跟踪策略来保持伪遮挡物体的永久性和边界框，同时引入了时空特征聚合模块和一致性损失以提高整体流程的稳健性。实验证明，额外的可见性标签可以辅助有监督训练，并且我们的方法在绝对 mAP 上比最先进的方法表现出显著的改进，提高了 7.9%。

Mar, 2024

通过放松的共同命运和视觉分组从视频中引导物体性质

本研究探讨了从无标签视频中学习物体分割的方法：首先从视觉共同命运与物体出现统计上进行特征学习，再基于视频内部和跨视频的外观分组进行细化，应用 ResNet 和卷积头只需无监督学习即可实现视频目标分割，相对于 DAVIS16 / STv2 / FBMS59 等基准上，绝对增益分别为 7/9/5％，展示了该方法的有效性，代码也已公开发表。

Apr, 2023

实现移动物体的分割

通过光流作为解释运动信号的底层信号，将移动信息与外观信息相结合，提出一种基于学习的 Spatio-Temporal Grouping 方法，成功地应用于封闭前景物体个体的分割的问题。

Feb, 2019