基于流引导的视频目标检测特征聚合

Mar, 2017

基于流引导的视频目标检测特征聚合

Flow-Guided Feature Aggregation for Video Object Detection

Xizhou Zhu, Yujie Wang, Jifeng Dai, Lu Yuan, Yichen Wei

TL;DR该研究提出了一种基于流引导特征聚合的视频物体检测学习框架，该框架通过沿着运动路径聚合邻近特征来提高视频的识别精度，避免了视频中物体外观退化的问题，并且完全可训练，与 ImageNet VID 挑战的最佳工程系统相当

Abstract

Extending state-of-the-art object detectors from image to video is challenging. The accuracy of detection suffers from degenerated object appearances in videos, e.g., motion blur, video defocus, rare poses, etc. Existing work attempts to exploit temporal information on box level, but such methods are not trained end-to-end. We present flow-guided

video object detection temporal coherence feature aggregation motion paths end-to-end learning

发现论文，激发创造

FODVid: 视频中的流引导物体发现

我们在视频中对象的分割问题上提出了一种新的管道（FODVid），它基于使用流引导图割和时间一致性的思想来引导分割输出，通过设计一个融合了帧内外观和流相似性以及帧间对象时间持续性的分割模型，我们的方法在无监督的视频对象分割中取得了与现有顶级方法相当的结果（在 mIoU 范围内相差约 2 个单位），我们技术的简单性和效果为视频领域的研究开辟了新的研究途径。

Jul, 2023

学习关注焦点以实现高效视频目标检测

提出了一种基于可学习的空间 - 时间采样 (LSTS) 模块、分散递归特征更新 (SRFU) 和密集特征聚合 (DFA) 模块，实现了视频目标检测中的准确空间对应关系，增强特征更新，提升检测性能，并在 ImageNet VID 数据集上取得了最先进的表现和实时速度。

Nov, 2019

视频目标检测的序列级语义聚合

本研究提出了一种基于全序列级别的特征聚合方法（SELSA），用于视频目标检测，实现了更具区分性和更健壮的特征，同时创造了新的视角来理解 VID 问题。此法不需要 Seq-NMS 或 Tubelet 重评分等复杂的后处理方法，保持了管道的简洁明了，并在 ImageNet VID 和 EPIC KITCHENS 数据集上实现了新的最先进结果。

Jul, 2019

视频识别的深度特征流

该研究提出了一种针对视频识别的研究框架，Deep feature flow，使用卷积神经网络在关键帧上运行，通过流场传播其特征图到其他帧，大大提高了视频识别的速度和准确性，同时为实际应用打下坚实的基础。

Nov, 2016

高性能视频目标检测

本文探讨了基于多帧端到端学习特征和帧间运动的统一方法，该方法扩展了之前的研究并引入了三个新技术来提高视频物体检测性能。

Nov, 2017

面向移动设备的高性能视频目标检测

本文提出了一种轻量级的视频物体检测网络，采用稀疏关键帧上的轻量级图像物体探测器进行检测，并在关键帧上应用基于流量引导的 GRU 模块，对特征进行有效聚合。对于非关键帧，进行稀疏特征传播。该系统在移动设备上运行速度较快，在 HuaWei Mate 8 上可达到 60.2％的 mAP 得分以及 25.6 fps 的速度。

Apr, 2018

流边引导的视频补全

本文介绍了一种新的基于流的视频补全算法，采用提取与补全运动边缘，引入非局部流连接到时间上远离的帧中，来解决运动边界障碍问题，通过在 DAVIS 数据集上的实验证明其优于现有算法。

Sep, 2020

SegFlow: 视频目标分割和光流联合学习

本文提出了一种端到端可训练网络 SegFlow，用于同时预测视频中逐像素对象分割和光流，并通过统一框架双向传播对象分割和光流的有用信息。实验证明，引入光流可提高分割性能，同时改善了最先进算法的结果。

Sep, 2017

基于帧间聚合的网络视频主体区域弱监督语义分割

本研究利用网络上自动采集的视频，通过使用时域信息可以识别目标对象的更大区域，从而产生与标记相似的结果，该方法在验证集上超过了现有标准，并使结果达到了最新的水平。

Aug, 2019

基于置信度引导的自适应门控机制和双重差分增强的视频显著目标检测

本文提出了一种新的适应性框架来捕捉从空间和时间线索中提取出的可用信息，其中包括 CAG 模块和 DDE 模块，并在四个广泛使用的数据集上进行了实验证明其相对于 13 种最先进方法的有效性。

May, 2021