VPTR 视频预测的高效 Transformer
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本论文提出了一种基于 Transformer 模型的视频插帧方法,利用自注意力机制实现了内容关注的多尺度帧间聚合,并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。
Nov, 2021
本研究采用 Transformer 对视频超分辨率问题进行了改进,引入了空时卷积自注意力层以利用数据位置信息,设计了双向光流驱动前馈层以发现不同视频帧之间的相关性并对齐特征,实验证明了这种方法的有效性。
Jun, 2021
提出了一种名为 AVT 的模型,它是一种基于注意力机制的端到端视频建模架构,通过关注之前观察过的视频来预测未来的动作,通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比,AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,这对于预测任务非常关键。通过广泛的实验,该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能:EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads;并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。
Jun, 2021
本研究提出了一种基于轨迹感知 Transformer 的视频超分辨率方法,利用空间和时间的信息来实现视频帧的超分辨率,实验证明该方法优于现有的超分辨率模型。
Apr, 2022
通过提出一种新颖的特征级遮蔽处理框架 MIA-VSR,本文解决了 Vision Transformer 在受限设备上应用的计算负担和内存占用过大的问题,并通过详细的消融研究验证了方法的有效性和与最新技术的比较结果。
Jan, 2024
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
本文通过对辩别器分解的系统实证研究,提出了一种结构,使得其收敛速度和性能都优于之前的方法,并分析了生成器中的循环单元,提出了一种新的循环单元,可以根据预测的动态特征转换其过去的隐藏状态,包括处理去除、场景改变等复杂行为,最终的模型在大规模的 Kinetics-600 数据集上,获得了卓越的性能。
Mar, 2020