一张图片抵 16x16 字,一段视频抵多少字?
本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法,该方法将视频帧连接成 $n imes n$ 的矩阵,从而将图像编码器的使用量从 $n^2$ 减少到 1,保持了原始视频的时间结构。实验结果表明,我们的方法在 MSRVTT 和 TrafficQA 数据集上取得了与当前最佳方法相同甚至更好的性能,速度快近 4 倍,使用的内存仅占现有方法的 30%,能够节省计算资源。
May, 2023
将视频识别问题作为图像识别任务,使用超级图像重新排列输入的视频帧,通过仅使用基于 Transformer 的图像分类器,直接完成动作识别任务,此方法在多个公共数据集上表现强劲,包括 Kinetics400,Moments In Time,Something-Something V2 (SSV2),Jester 和 Diving48。
Jun, 2021
本研究通过优化设计网络结构,系统地探讨了关键网络设计选择,包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等,进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快,而且在行动分类基准测试(Kinetics、Something-something、UCF101 和 HMDB)以及两个行动检测(本地化)基准测试(JHMDB 和 UCF101-24)中的分类效果也比其他方法更有竞争力。
Dec, 2017
该论文提出了一种基于自注意力机制的视频分类方法,名为 TimeSformer,适用于序列级别的视频帧,采用分离式自注意力机制,不仅训练速度比 3D 卷积神经网络更快,而且在多个动作识别数据集上实现了最佳效果,且支持处理长达一分钟的视频.
Feb, 2021
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。
Mar, 2023
通过在视频变压器的跨关注点中引入核的角度并应用两种时间平滑核,重新定义流式视频识别模型,拥有常数时间更新每帧的优势,在 THUMOS'14 和 EPIC-Kitchen-100 数据集上取得了最新的成果。
Sep, 2022
本文介绍了一种轻量级的 “剪辑采样” 模型,可在长视频中高效识别最显著的时间片段,将行动识别的计算成本显著降低,同时提高识别准确性。
Apr, 2019
该论文提出了一种用于零样本视频编辑的视频反演方法,通过在反演过程中对输入视频建模为低秩表示。研究发现,与现有的方法不同,提出的空时期望最大化(STEM)反演方法能够在整个视频中应用固定和全局表示以保证重建和编辑的时间一致性,并取得了两种最先进的视频编辑方法上的一致改进。
Dec, 2023
借鉴 SqueezeTime 的概念,本文提出了一种轻量级视频识别网络(SqueezeTime)以在移动设备上实现高精度的视频理解,通过将时间轴压缩到通道维度,并设计了 Channel-Time Learning (CTL) Block,捕捉序列的时间动态特性。
May, 2024