视频目标检测的序列级语义聚合

ICCVJul, 2019

Sequence Level Semantics Aggregation for Video Object Detection

Haiping Wu, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang

TL;DR本研究提出了一种基于全序列级别的特征聚合方法（SELSA），用于视频目标检测，实现了更具区分性和更健壮的特征，同时创造了新的视角来理解 VID 问题。此法不需要 Seq-NMS 或 Tubelet 重评分等复杂的后处理方法，保持了管道的简洁明了，并在 ImageNet VID 和 EPIC KITCHENS 数据集上实现了新的最先进结果。

Abstract

video objection detection (VID) has been a rising research direction in recent years. A central issue of VID is the appearance degradation of video frames caused by fast motion. This problem is essentially ill-po

video objection detection appearance degradation feature aggregation sequence level semantics aggregation state-of-the-art results

发现论文，激发创造

基于流引导的视频目标检测特征聚合

该研究提出了一种基于流引导特征聚合的视频物体检测学习框架，该框架通过沿着运动路径聚合邻近特征来提高视频的识别精度，避免了视频中物体外观退化的问题，并且完全可训练，与 ImageNet VID 挑战的最佳工程系统相当

Mar, 2017

学习关注焦点以实现高效视频目标检测

提出了一种基于可学习的空间 - 时间采样 (LSTS) 模块、分散递归特征更新 (SRFU) 和密集特征聚合 (DFA) 模块，实现了视频目标检测中的准确空间对应关系，增强特征更新，提升检测性能，并在 ImageNet VID 数据集上取得了最先进的表现和实时速度。

Nov, 2019

视频目标检测的一致身份聚合

本文提出了一种使用 Identity-Consistent Aggregation (ICA) 层的 VID 模型 ClipVID，旨在改善 Video Object Detection 中的对象表示和处理对象外观变化。在 ImageNet VID 数据集上，我们的方法表现出 84.7% 的最佳性能，速度比之前的最佳性能快 7 倍 (39.3 fps)。

Aug, 2023

基于序列非极大值抑制的视频目标检测

本文将视觉目标检测中的三个阶段进行了修改，采用了从相邻帧提取高得分目标检测的方法来增强同一剪辑中弱目标检测的得分，并获得了比现有技术更好的结果。该方法在 ImageNet 大规模视觉识别挑战赛 2015 年的视频目标检测（VID）任务中取得了第三名。

Feb, 2016

SSVOD：带有稀疏标注的半监督视频物体检测

通过利用视频的动态运动特性，我们引入了 SSVOD，一个端到端的半监督视频目标检测框架，以利用大规模未标记的帧和稀疏注释来选择性地组装鲁棒的伪标签，并通过结合硬伪标签和软伪标签的置信度阈值进行伪标签的确认偏见和不确定性噪声的平衡，从而在 ImageNet-VID，Epic-KITCHENS 和 YouTube-VIS 数据集上实现了显著的性能改进。

Sep, 2023

单次拍摄视频目标检测器

本文介绍了一种用于视频中物体检测的新架构 SSVD，通过对相邻帧的特征进行聚合和估算运动路径，实现了单阶段物体检测。在 ImageNet VID 数据集上进行的实验证明，该方法比现有的物体检测方法更为有效。

Jul, 2020

SSGA-Net: 逐步空间全局本地聚合网络用于自动驾驶

我们提出了一种分阶段空间全局 - 局部聚合网络，用于解决快速运动或多个姿势引起的特征退化问题，并提高在在线应用中的效率。

May, 2024

基于帧间聚合的网络视频主体区域弱监督语义分割

本研究利用网络上自动采集的视频，通过使用时域信息可以识别目标对象的更大区域，从而产生与标记相似的结果，该方法在验证集上超过了现有标准，并使结果达到了最新的水平。

Aug, 2019

YouTube-VOS: 序列到序列视频物体分割

本文介绍了一个基于大规模数据集的序列 - 序列网络，能够充分利用视频的长期时空信息进行分割，在 YouTube-VOS 测试集上取得了最佳结果，在 DAVIS 2016 上与现有最先进方法相比也有可比性。

Sep, 2018

逐步稀疏的局部注意力在视频物体检测中的应用

该论文提出了一种名为 PSLA 的新型模块，它通过逐步稀疏的步幅在局部区域内建立跨帧特征间的空间对应关系，并使用这个对应关系来传播特征。基于 PSLA，提出了 RFU 和 DenseFT 来分别建模时间外观和丰富特征表示，进而构建了一种新型的视频目标检测框架。实验表明，该方法在模型大小更小、运行时间可接受的情况下取得了最佳准确度。

Mar, 2019