从图像到视频的双路径变换器自适应
本文提出了名为 Dual Vision Transformer (Dual-ViT) 的新型 Transformer 结构,在保持准确度的前提下,通过综合运用语义路径和像素路径,将全局语义压缩成更高效的先验信息,进而实现了减少计算复杂度的目的,并在实验中表现出比 SOTA Transformer 结构更高的准确度。
Jul, 2022
提出了一种零成本适应范式(ZeroI2V)来将图像变换器应用于视频识别任务,实现图像到视频的快速转换和零额外计算成本。通过引入空间 - 时间双头注意力(STDHA)和轻量级线性适配器的线性适应策略,实现了对视频动态性和图像与视频之间的领域差异的处理,达到与先前最先进的方法相当甚至超过的参数和推理效率。
Oct, 2023
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
本文介绍了一种新颖的双重注意机制,包括由卷积神经网络生成的局部注意和由 Vision Transformer 生成的长程注意,提出了一种新的多头分区关注机制(MHPA)来解决计算复杂性和内存占用的问题,并基于此提出了一个分层视觉骨干网络 DualFormer,在多个计算机视觉任务中都取得了比较好的表现。
May, 2023
本文提出一种自适应视觉变换器 (ViT) 方法,利用集成适配器模块和特征转换层适应不同域的数据,从而实现跨域活体检测,并在多个基准数据集上取得了与现有方法相媲美的性能.
Mar, 2022
本文介绍了一种针对视频领域的区域局部性 Transformer 架构,通过使用 Swin Transformer 设计来实现,同时利用预训练模型的威力,取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。
Jun, 2021
设计了一种适应预训练的 ViT 模型作为统一的长视频 Transformer 的新机制,以捕捉不同片段间的精细关系,并保持较低的计算开销和内存消耗,实现高效的时间动作检测。
Dec, 2023
本文研究了视觉变换器的参数高效模型适应策略,提出了一种基于局部内在维度的参数高效模型适应框架,并通过实验比较了不同方法在各项指标下的表现。结果表明,该框架在少样本下的 20 个图像分类数据集和全样本下的 7 个图像分类数据集上,在准确性和参数效率之间的平衡上表现最佳。
Mar, 2022
本研究提出了一种适用于影像模型的新方法,通过添加轻量 Adapter 和冻结预训练的影像模型,实现提高影像模型的时空推理能力,该方法在四个视频行为识别基准上取得了与先前方法相当甚至更好的性能。
Feb, 2023
我们提出了一种使用单一模型联合学习图像和视频的方法,该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。
Aug, 2023