预测性视频转换器

CVPRJun, 2021

Anticipative Video Transformer

Rohit Girdhar, Kristen Grauman

TL;DR提出了一种名为 AVT 的模型，它是一种基于注意力机制的端到端视频建模架构，通过关注之前观察过的视频来预测未来的动作，通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比，AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性，这对于预测任务非常关键。通过广泛的实验，该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能：EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads；并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。

Abstract

We propose anticipative video transformer (AVT), an end-to-end attention-based video modeling architecture that attends to the previously observed video in order to anticipate →

anticipative video transformer attention-based video modeling future actions video sequence long-range dependencies

发现论文，激发创造

重新思考长期行动预测的学习方法

ANTICIPATR 模型使用 segment-level representations 和 video-level representation 进行时间跨度较大的 action anticipation 任务，能够直接预测未来一段时间的行为实例。在 Breakfast、50Salads、Epic-Kitchens-55 和 EGTEA Gaze+ 数据集上得到了较好的结果。

Oct, 2022

未来的 Transformer 用于长期行动预测

提出了一种全新的基于注意力机制的动作预测模型，称为 Future Transformer (FUTR)，它能够学习全局的视频动作信息，以预测长达数分钟的未来动作序列，和传统的自回归模型相比，FUTR 可以更准确、更快速地进行长期预测。在两个标准数据集 Breakfast 和 50Salads 上进行了实验，FUTR 模型取得了最新的最优结果。

May, 2022

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

VS-TransGRU: 基于视觉语义融合的新颖 Transformer-GRU 框架用于主观动作预测

通过引入语义信息和引入视觉观察的时序特征来提高一类动作预测模型的性能，提出了一种新的基于视觉信息和反馈神经网络的动作预测框架。与现有方法相比，该方法通过融合视觉特征和语义特征来提升性能，取得了新的最佳结果。

Jul, 2023

人类中心视频中基于知识引导的短上下文动作预测

本文通过将符号性知识图谱融入变换网络，提高了视频段期望动作的预测准确性，从而加快了编辑工作流程，并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上，我们的方法在使用短视频上下文进行长期动作预测方面，超过了现有最先进方法高达 9%。

Sep, 2023

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Jan, 2024

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

VPTR 视频预测的高效 Transformer

本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块，用于视频未来帧预测，并构建了一个全自回归视频未来帧预测 Transformer 框架，另外还提出了一个非自回归视频预测 Transformer 框架，并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作，所提出的模型在性能上与更复杂的现有模型竞争力相当。

Mar, 2022

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

视频变形网络

本文提出了一种基于 Transformer 的视频识别框架 VTN，它相比于传统的 3D ConvNets，通过整个视频序列的注意力机制实现动作分类，并在训练和推断时分别快 16.1 倍和 5.1 倍，同时在 Kinetics-400 数据集上获得了有竞争力的结果，表明了精度和推断速度之间的权衡。

Feb, 2021