2022 年 Ego4D PNR 时序定位挑战赛结构化视频令牌

CVPRJun, 2022

2022 年 Ego4D PNR 时序定位挑战赛结构化视频令牌

Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022

Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna Rohrbach...

TL;DRSViT method proposes StructureViT to improve temporal localization by utilizing object tokens and enforcing frame-clip consistency, achieving a strong performance of 0.656 absolute error on Point of No Return challenge test set.

Abstract

This technical report describes the svit approach for the Ego4D Point of No Return (PNR) temporal localization Challenge. We propose a learning framework →

svit point of no return temporal localization structurevit frame-clip consistency

发现论文，激发创造

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

SViTT-Ego：一种用于自我中心视频的稀疏视频文本变压器

通过在 EgoClip 数据集上预训练，采用稀疏自我中心视频文本变换模型 SViTT-Ego，融合了边缘和节点稀疏化，以及友好的自我中心目标 EgoNCE，相对于 LAVILA large，在内部视频 EgoMCQ 上获得了 + 2.8% 的准确度提升，无需额外的数据增强技术，可以在内存有限的设备上预训练。

Jun, 2024

流媒体视频模型

提出了一种名为 “Streaming Vision Transformer” 的流式视频架构，利用具有内存功能的时间感知空间编码器产生帧级特征，供基于帧的视频任务使用；然后将帧级特征输入到与任务相关的时间解码器中，获得用于序列化任务的时空特征，该模型在行动识别任务中具有最先进的准确度，并在基于帧的多目标跟踪任务中具有竞争优势。

Mar, 2023

SVT: 超级令牌视频变形器用于高效视频理解

本文提出了一种超词汇视频变形器（SVT），其中包含语义池模块（SPM），该模块根据它们的语义沿着视觉变换器的深度聚合潜在表示，并因此减少了视频输入中固有的冗余；方法在 Kinectics-400 和 Something-Something-V2 数据集上得到了验证，并提高了 MAE 预训练 ViT-B 和 ViT-L 的准确性以及 MViTv2-B 的准确性。

Apr, 2023

对比语言视频时间预训练

通过对比学习，LAVITI 引入了一种新方法来学习长视频中的语言、视觉和时间表示，目标是通过提取未修剪视频中的有意义的时刻来对齐语言、视频和时间特征，并使用可学习的时刻查询来解码视频和时间特征。此外，引入了相对时间嵌入（TE）来表示视频中的时间戳，从而实现时间的对比学习。该方法在计算复杂度和内存占用方面显著不同于传统方法，可以仅使用 8 个 NVIDIA RTX-3090 GPU 在一天内在 Ego4D 数据集上进行训练。在 CharadesEgo 动作识别任务上，我们通过验证该方法实现了最先进的结果。

Jun, 2024

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

基于随机共振变压器的子标记视觉转换器嵌入

我们发现 Vision Transformers（ViTs）中存在量化伪像，这是由于这些架构中固有的图像令牌化步骤引起的。我们提出了一种零样本方法来改善预训练 ViTs 处理空间量化的方式。具体而言，我们建议使用通过子标记空间平移扰动输入图像获得的特征集合，灵感来自于随机共振 —— 这是一种传统上应用于气候动力学和信号处理的方法。我们称此方法为 “随机共振变压器”（SRT），我们显示出 SRT 可以有效地超分辨率预训练 ViTs 的特征，捕捉到更多的局部细粒度结构，这些结构在令牌化的方式下可能会被忽视。SRT 可以应用在任何层、任何任务上，并且不需要任何微调。前者的优点在于应用于单目深度预测时变得明显，在三种不同架构上，我们展示了在 RMSE 和 RMSE-log 指标上应用 SRT 在中间 ViT 特征上而不是集成模型输出的基线模型性能平均分别提高了 4.7% 和 14.9%。在半监督视频目标分割中，SRT 也在所有指标上均改进了基线模型，平均提高了 2.4% 的 F&J 分数。我们还进一步展示了这些量化伪像可以通过自蒸馏在一定程度上进行衰减。在无监督显著区域分割上，SRT 相对于基准模型平均提高了 2.1% 的 maxF 指标。最后，尽管 SRT 仅基于像素级特征进行操作，但它也适用于像图像检索和目标发现这样的非密集预测任务，分别产生了一致的改进效果，最多分别提高了 2.6% 和 1.0%。

Oct, 2023

学习轨迹感知的视频超分辨率转换器

本研究提出了一种基于轨迹感知 Transformer 的视频超分辨率方法，利用空间和时间的信息来实现视频帧的超分辨率，实验证明该方法优于现有的超分辨率模型。

Apr, 2022