STEm-Seg：视频中的时空嵌入实例分割

Mar, 2020

STEm-Seg：视频中的时空嵌入实例分割

STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos

Ali Athar, Sabarinath Mahadevan, Aljoša Ošep, Laura Leal-Taixé, Bastian Leibe

TL;DR该论文提出了一种新的视频实例分割方法，基于单阶段的 3D 空间 - 时间体积建模，使用时空嵌入技术聚类像素特征，通过单阶段网络实现端到端训练和推理，取得了多项最先进结果。

Abstract

Existing methods for instance segmentation in videos typi-cally involve multi-stage pipelines that follow the tracking-by-detectionparadigm and model a video clip as a sequence of images. Multiple net-works are used to detect objects in individual frames, and then associatethese detect

instance segmentation video analysis spatio-temporal embeddings single-stage network end-to-end trainable

发现论文，激发创造

学习视频实例分割的时空嵌入

本研究提出了一种新颖的视频实例分割嵌入式方法，该方法通过融合外观、运动和几何等多种线索来学习时空嵌入，其中，运动由 3D 因果卷积网络模拟，几何由单目自监督深度损失模拟。在这种嵌入空间中，同一实例的视频像素被聚类在一起，同时与其他实例分离，从而自然地跟踪实例而不需要任何复杂的后处理，而且实时性能良好。研究结果表明，该模型在 KITTI 多物体和跟踪数据集上可以准确地跟踪和分割实例，即使存在遮挡和遗漏检测等问题，也能推进同类算法的发展。

Dec, 2019

基于时空图神经网络的端到端视频实例分割

本文提出了基于图神经网络（GNN）的视频目标实例分割方法，使用图中的节点表示实例特征来进行检测和分割，而使用表示实例关系的图中的边来进行跟踪，有效地传播和共享帧内外信息，同时优化检测、分割和跟踪三个问题，取得了优于现有方法的表现。

Mar, 2022

基于时空深度嵌入的高俯视视频车辆轨迹重建

本文介绍了一种基于 STMap 的交通轨迹重建方法，采用了 Spatial-Temporal Deep Embedding（STDE）模型，在像素和实例级别上形成奇偶校验约束，以生成用于 STMap 上车辆条带分割的实例感知嵌入，采用 mutex-watershed 算法最终获得聚类结果。

Sep, 2022

视频实例分割的时空对比学习

本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架，利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性，在 YouTube-VIS-2019，YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。

Feb, 2022

无监督视频目标分割中的实例嵌入迁移

提出一种用于无监督视频目标分割的方法，通过转移图像实例嵌入网络中封装的知识。通过将实例嵌入与物体性和光流特征相结合，无需模型重新训练或在线微调，即可将物体链接起来。该方法在 DAVIS 数据集和 FBMS 数据集上优于最先进的无监督分割方法。

Jan, 2018

时间嵌入：基于时空数据的可扩展无监督时序表征学习，用于多模态计算机视觉

地理空间活动与土地利用类型之间存在相关性。提出一种新颖的自监督方法，基于运动活动时间序列对景观进行分层。时间序列信号首先转换到频域，然后通过压缩自编码器转换为与任务无关的时间嵌入，该方法保留了时间序列中观察到的循环时间模式。通过深度语义分割，将像素级嵌入转换为类似图像的通道，可用于基于任务的异模态建模和下游地理空间任务的建模。实验证明，时间嵌入是时间序列数据的语义有意义的表示方法，并且在不同的任务中如分类住宅区和商业区等有着良好的效果。时间嵌入将时空运动轨迹数据转换为语义有意义的类似图像的张量表示，可以与其他数据模态（如 RBG 图像、道路网络的图嵌入、被动采集的 SAR 图像等）相结合进行多模态学习，从而促进地理空间计算机视觉中的多模态学习。多模态计算机视觉对于训练地理空间特征检测的机器学习模型以保持地理空间映射服务实时更新是至关重要的，可以显著提高用户体验和用户安全。

Oct, 2023

有效的一阶段视频实例分割中的空间特征校准与时间融合

我们提出了一个名为 STMask 的简单而有效的一阶段视频实例分割框架，通过空间校准和时间融合解决了现代一阶段视频实例分割网络的一些限制，它能够处理视频中的挑战性场景并具有很高的性能。

Apr, 2021

具有空间和时间嵌入的多人关节跟踪

本文提出了一个统一的框架，用于实现多人姿态估计和跟踪，包含两个主要组件 SpatialNet 和 TemporalNet，其中 SpatialNet 在单帧中实现了身体部位检测和部位级别的数据关联，而 TemporalNet 则将连续帧中的人类实例分组为轨迹。

Mar, 2019

视频对象分割的时空图神经网络基于遮罩重建

该研究提出了一种新型的时空图神经网络（STG-Net）方法，它通过利用所有 Object Proposals 并捕捉它们之间的关联来更精确地重建视频对象分割的遮罩，并通过滑动窗口方法以及记忆模型来捕捉时态相关信息。该方法在四个大型数据集上实现了最新的表现，并展示了其有效性。

Dec, 2020

基于空间 - 时间对齐记忆的视频物体检测

本文介绍了一种用于视频目标检测的空间 - 时间记忆网络，其核心是一种新颖的空间 - 时间记忆模块，用于模拟长期的时间外观和动态运动，并提出了一种新的 MatchTrans 模块来解决视频中的物体运动问题。作者的方法在 benchmark ImageNet VID 数据集上取得了最先进的结果，并且文章的实验表明了不同设计选择的贡献。

Dec, 2017