视频实例分割的时间高效视觉 Transformer
我们提出了一种时态扩张视频变换器 (Temporal Dilated Video Transformer, TDViT),通过使用层次化的时态扩张变换器块 (Temporal Dilated Transformer Blocks, TDTB) 来提取时空表示,并有效缓解时态冗余的负面影响,从而模拟长程动态。通过在两个不同的密集视频基准上进行广泛实验,即用于视频物体检测的 ImageNet VID 和用于视频实例分割的 YouTube VIS,出色的实验结果证明了我们方法的出色效率、有效性和兼容性。
Feb, 2024
EfficientVIS 是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询 - 视频交互方法在空间和时间上关联和分割 RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在 YouTube-VIS 基准测试上达到了最先进的准确率。
Mar, 2022
VisTR 是一种基于 Transformers 的视频实例分割框架,提出了一种新的实例序列匹配和分割策略实现对序列的监督,从相似性学习的角度框架实例分割和跟踪,大大简化了整个流程,并在 YouTube-VIS 数据集上取得了最佳结果和最高速度,这激励了未来更多的视频理解任务的研究。
Nov, 2020
使用 Vision Transformers 进行语义分割的研究,提出了 SegViTv2,通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本,同时在持续学习的环境下实现近乎零遗忘。实验结果表明,SegViT 优于当前流行的语义分割方法。
Jun, 2023
本文提出了一种名为 Video Mask Transfiner (VMT) 的方法,该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征,并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法,并通过 HQ-YTVIS 数据集对本文提出的方法进行了实验验证。实验结果表明,该方法可以有效地分割复杂和动态的物体,捕捉精细的细节。
Jul, 2022
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。
Mar, 2023
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括 Kinetics 400 和 600,Epic Kitchens,Something-Something v2 和 Moments in Time,优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
本文提出了一种简单的视觉 Transformer 设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023