一张图片抵 16x16 字，一段视频抵多少字？

Mar, 2021

一张图片抵 16x16 字，一段视频抵多少字？

An Image is Worth 16x16 Words, What is a Video Worth?

Gilad Sharir, Asaf Noy, Lihi Zelnik-Manor

TL;DR本文提出了一种使用全局注意机制的时间变换器，以更好地利用每个帧的显着信息来显著减少推理时间和数据帧，从而提高输入效率，在 Kinetics 数据集上实现了 SotA 结果。

Abstract

Leading methods in the domain of action recognition try to distill information from both the spatial and temporal dimensions of an input video. Methods that reach State of the Art (sota) accuracy, usually make us

action recognition temporal transformer sota kinetics dataset input efficiency

发现论文，激发创造

一个高效的基于 Transformer 的视频问答方法：视频是否能够取代 $n imes n$ 张图像？

本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法，该方法将视频帧连接成 $n imes n$ 的矩阵，从而将图像编码器的使用量从 $n^2$ 减少到 1，保持了原始视频的时间结构。实验结果表明，我们的方法在 MSRVTT 和 TrafficQA 数据集上取得了与当前最佳方法相同甚至更好的性能，速度快近 4 倍，使用的内存仅占现有方法的 30%，能够节省计算资源。

May, 2023

图像分类器能否满足动作识别的需求？

将视频识别问题作为图像识别任务，使用超级图像重新排列输入的视频帧，通过仅使用基于 Transformer 的图像分类器，直接完成动作识别任务，此方法在多个公共数据集上表现强劲，包括 Kinetics400，Moments In Time，Something-Something V2 (SSV2)，Jester 和 Diving48。

Jun, 2021

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

无遗漏：全视频动作识别

通过对视频帧进行时间聚类，提出了一种全视频行为识别方法，相较于现有的基于帧采样的方法效果更好，同时由于采用了时空局部聚类和快速的哈明距离计算方法使其训练高效。

Mar, 2021

流媒体视频模型

提出了一种名为 “Streaming Vision Transformer” 的流式视频架构，利用具有内存功能的时间感知空间编码器产生帧级特征，供基于帧的视频任务使用；然后将帧级特征输入到与任务相关的时间解码器中，获得用于序列化任务的时空特征，该模型在行动识别任务中具有最先进的准确度，并在基于帧的多目标跟踪任务中具有竞争优势。

Mar, 2023

具有时间平滑 Transformer 的实时在线视频检测

通过在视频变压器的跨关注点中引入核的角度并应用两种时间平滑核，重新定义流式视频识别模型，拥有常数时间更新每帧的优势，在 THUMOS'14 和 EPIC-Kitchen-100 数据集上取得了最新的成果。

Sep, 2022

SCSampler：用于高效行为识别的视频显著片段采样

本文介绍了一种轻量级的 “剪辑采样” 模型，可在长视频中高效识别最显著的时间片段，将行动识别的计算成本显著降低，同时提高识别准确性。

Apr, 2019

一个视频值 256 基：空间 - 时间期望最大化反演用于零射影视频编辑

该论文提出了一种用于零样本视频编辑的视频反演方法，通过在反演过程中对输入视频建模为低秩表示。研究发现，与现有的方法不同，提出的空时期望最大化（STEM）反演方法能够在整个视频中应用固定和全局表示以保证重建和编辑的时间一致性，并取得了两种最先进的视频编辑方法上的一致改进。

Dec, 2023

抽榨时间给移动视频理解

借鉴 SqueezeTime 的概念，本文提出了一种轻量级视频识别网络（SqueezeTime）以在移动设备上实现高精度的视频理解，通过将时间轴压缩到通道维度，并设计了 Channel-Time Learning (CTL) Block，捕捉序列的时间动态特性。

May, 2024