使用管段提案网络进行视频目标检测

CVPRFeb, 2017

使用管段提案网络进行视频目标检测

Object Detection in Videos with Tubelet Proposal Networks

Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan...

TL;DR该研究提出了一种基于 tubelet 提案网络和 LSTM 网络的视频对象检测框架，以在视频中高效地生成空间时间提案并融合时间信息以实现高精度的对象检测。

Abstract

object detection in videos has drawn increasing attention recently with the introduction of the large-scale imagenet vid dataset. Differen

object detection videos spatiotemporal tubelets lstm network imagenet vid

发现论文，激发创造

高质量物体链接的视频目标检测

本研究介绍了一种新的视频目标检测方法，采用时序上下文方法来链接同一对象，从而提高分类准确率。该方法在 ImageNet VID 数据集上的表现优于静态图像检测器和先前的最新技术。

Jan, 2018

T-CNN：基于卷积神经网络的视频目标检测管道

提出了一种深度学习框架 T-CNN，该框架从视频中获取来自 tubelets 的时间和语境信息，用于物体检测，经证实，在 ImageNet Large-Scale Visual Recognition Challenge 2015（ILSVRC2015）的提供数据的物体检测从视频（VID）任务中表现出色。

Apr, 2016

时空动作定位的 Action Tubelet 检测器

本文通过提出 ACT-detector，结合对象检测中的 anchor boxes 思想，利用视频的时间连续性进行动作检测，结果表明在 J-HMDB 和 UCF-101 数据集上，我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法，特别是具有高重叠阈值时，精度和定位都得到了显著的提升。

May, 2017

使用卷积神经网络从视频管道中进行目标检测

本论文介绍了一个基于静态图像物体侦测和一般物体跟踪的完整视频目标侦测框架，并提出了一个时间卷积网络来整合时间信息以规范化侦测结果，在 ImageNet 数据集上进行了评估。

Apr, 2016

具有时间感知特征图的移动视频物体检测

本文提出了基于反复卷积结构的在线物体检测模型，并使用瓶颈长短时记忆层来降低计算成本。该模型在移动 CPU 上实现了 15 FPS 的实时推断速度。

Nov, 2017

TubeR：用于视频动作检测的 Tubelet Transformer

本文提出了一种简单的解决方案 TubeR，用于实现时空视频动作检测，可以有效地增强模型容量，并且直接产生变长动作管道，并在常用的行动检测数据集 AVA、UCF101-24 和 JHMDB51-21 上优于先前的最佳状态。

Apr, 2021

动作定位的通用管道提议

本文提出了一种新的基于视频的行动定位框架，使用管道提案网络 (TPN) 生成通用的、独立于类别、视频级别的管状建议，可用于各种视频分析任务，包括行动识别和定位。与其他方法相比，我们的通用管状建议方法准确、通用，并在平滑 L1 损失函数下完全可微。在标准的 UCF-Sports、J-HMDB21 和 UCF-101 数据集上证明了算法的性能。我们的独立于类别的 TPN 优于其他管状建议方法，我们的统一时间深度网络在所有三个数据集上都实现了最先进的定位结果。

May, 2017

视频 Transformer 实现端到端时空动作定位

提出一种基于 Transformer、全端到端的模型，该模型直接处理输入视频并输出一系列边界框和每一帧的动作类别，能够使用稀疏边界框基础训练或完整灯管基础训练训练，且无需额外的前处理或后处理即可预测出高质量的结果，并在四个不同的局部性数据集上取得优异的实验成果。

Apr, 2023

物体级别视频分割的物体检测、跟踪和运动分割

该论文提出了一种用于视频中物体分割的方法，结合了帧级物体检测与物体跟踪、运动分割等概念，提取了基于现成检测器的时间一致性物体管，结合运动线索提供视频分割，克服了弱监督 / 无监督视频分割的典型问题，并提供每个对象的精确、时间一致的分割。

Aug, 2016

具有注意力机制 LSTM 的时间感知 SSD

本论文提出了一种基于注意机制和卷积长短时记忆（ConvLSTM）的时序单次检测器（TSSD），以实现视频中的实时在线目标检测。采用 ConvLSTM 来集成时间金字塔特征层次，并使用一个低级时序单元和一个高级单元来设计新颖的结构（LH-TU）进行多尺度特征图。关注 ConvLSTM（AC-LSTM）的创新时间分析单元被设计为时间上的背景抑制和尺度抑制，并跨时间集成具有关注注意力的特征。此外，针对时间一致性设计了联合损失和多步训练。最后，利用在线管道分析（OTA）进行识别。评估结果证明，该方法在检测和跟踪性能方面具有优势。

Mar, 2018