学习是什么和在哪里：无监督分离位置和身份跟踪

ICLRMay, 2022

学习是什么和在哪里：无监督分离位置和身份跟踪

Learning What and Where: Disentangling Location and Identity Tracking Without Supervision

Manuel Traub, Sebastian Otte, Tobias Menge, Matthias Karlbauer, Jannik Thümmel...

TL;DR介绍了一种被称为 Loci 的自监督位置和身份追踪系统，通过处理分离的 “何处” 和 “何物” 的槽状编码解决了绑定问题，可以从视频流中有效地提取对象并将其分离成位置和整体组件，从而在概念层面上促进了有效的规划和推理。

Abstract

Our brain can almost effortlessly decompose visual data streams into background and salient objects. Moreover, it can anticipate object motion and interactions, which are crucial abilities for conceptual planning and reasoning. Recent →

object reasoning visual data streams self-supervised tracking system predictive coding video streams

发现论文，激发创造

LOCI 循环：从视频中发展物体恒常性

通过引入具有内部处理循环的 Loci-Looped 算法，本研究旨在推进组合场景表示算法，促进基于婴儿发展类似的直觉物理学习，以实现在对象遮挡或临时感官数据中断时无需显式历史缓冲区即能跟踪物体，以及以完全无监督的涌现方式学习对象永恒性和惯性这两个物理概念。

Oct, 2023

局部分割：改进场景分割学习

以基于插槽的处理方法为基础的场景表示的分解性处理方法已经取得了巨大的发展。我们介绍了 Loci-Segmented（Loci-s），这是一个先进的场景分割神经网络，扩展了基于插槽的位置和身份跟踪架构 Loci。

Oct, 2023

LOCATE：基于流引导图割和自主引导自训练的自监督目标发现

利用动态信息和外观信息，我们提出了一种自我监督的目标发现方法，该方法能够生成高质量的目标分割遮罩，并在多个基准测试中取得与现有方法相媲美甚至超越的结果。

Aug, 2023

学习目标不变的物体跟踪

该论文提出了一种端到端可训练的方法，结合物体检测和跟踪，并引入了序列记忆模块，使其更好地处理多物体跟踪，尤其是遮挡的情况。经过大规模的合成数据和实际测试，在 KITTI 和 MOT17 数据集上取得了最先进的性能表现。

Mar, 2021

来自以自我为中心的视频的空间认知：视力范围之外，心灵之内

通过使用自我中心相机捕获的观测，本研究旨在模仿人类空间认知能力，从而实现在物体超出视野范围时的 3D 跟踪活动物体的任务。利用 Lift, Match and Keep (LMK) 方法，将部分二维观测提升到三维世界坐标，通过视觉外观、三维位置与物体交互来匹配物体轨迹，并在相机视野之外保留这些物体轨迹，从而记住所看不见的物体。在来自 EPIC-KITCHENS 的 100 段长视频上测试 LMK，结果表明空间认知对于正确定位物体在短时间和长时间尺度上至关重要。例如，在一个长时间的自我中心视角视频中，我们估计了 50 个活动物体的三维位置，其中 60% 在离开相机视野 2 分钟后仍能正确定位到三维空间中。

Apr, 2024

深度神经网络自学目标定位

介绍了一种新方法，利用深度卷积神经网络对整张图片进行训练，以在不额外进行人工监督的情况下定位图像中的物体，并将该思想嵌入凝聚聚类技术中，产生自学习定位假设。实验证明，使用我们的方法自动生成的注释可用于训练物体探测器，产生接近于手动注释的边界框的识别结果。

Sep, 2014

学习仅需最少监督的物体定位

本论文提出了一种新方法，通过图像级标签，结合判别子模块覆盖问题和平滑的潜在 SVM 公式，实现仅需很少的监督，即可学习定位对象。实验表明，该方法在 PASCAL VOC 2007 检测中，相对于现有技术有 50％的平均精确度提升。

Mar, 2014

利用空间不变性进行可扩展的无监督物体跟踪

提出了一种能够应对大场景和多物体的无监督对象跟踪体系结构，包括空间不变运算（卷积和空间注意）和本地对象表示方案，在多个实验中展现了在有多个物体的混乱场景中跟踪对象比其他方法更好，并且能够很好地推广到训练时未遇到的更大，物体更多的视频中。

Nov, 2019

深度架构图像跟踪中的注意力学习

提出了一种基于注意力的模型，利用注视数据进行同时进行目标跟踪和识别。模型有两个相互作用的通路：身份和控制，分别模拟神经元科学模型中的「what 和 where」通路，其中前者使用深度（分解）受限玻尔兹曼机模拟对象外观并执行分类，而后者模拟关注对象的位置、方向、大小和速度，并估计状态的后验分布。

Sep, 2011

LOCATE: 弱监督可支配定位与传输物体部件

本文提出一种名为 LOCATE 的框架，采用图像级别的适应性和对象标签对交互区域进行特征嵌入，并将其聚合为人类、对象部分和背景的紧凑原型之一，以指导功能接地的弱监督学习。对于新物体，实验证明我们的方法在训练图像和测试图像上性能都很好。

Mar, 2023