SFMViT:慢快相遇在混沌世界中
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。
Mar, 2023
介绍了 SlowFast 网络用于视频识别,它包括 Slow 路径和 Fast 路径,其中 Slow 路径能捕捉空间语义,Fast 路径能捕捉精细时间分辨率的动态信息,并能在减小通道容量的前提下实现高精度的视频识别。
Dec, 2018
通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型,以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销,我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能,相比现有的 CNNs,ViTs 和 CNNTransformer 混合架构,FMViT 在性能和计算开销方面取得了卓越的成果。
Nov, 2023
本文研究行动识别问题,结合 SlowFast 网络和 TSM 方法,在视频中提取运动特征可以使用残差帧作为输入和 RGB 帧输入模型的优秀补充,通过 3D 卷。积(SlowFast)与 2D 卷积(TSM)的组合取得更好的性能结果,以上实验均在 UCF101 中从头开始训练。
Jul, 2020
本文介绍了一种称为长视频变压器(LoViT)的两阶段方法,用于融合短期和长期时间信息的融合,可以比当前的方法更好地处理手术过程中的长视频,并通过将本地和全局特征结合起来使用多尺度时间聚合器对手术相位进行分类。研究发现,与现有的方法相比,LoViT 在两个手术视频数据集上的表现最优
May, 2023
本文讨论了我们参加 EPIC-Kitchens-100 行为识别挑战的技术细节,其中我们使用 GSF 和 XViT 等模型进行空间 - 时间特征提取和聚合,设计了不同 Backbones 和 Pretraining 的混合模型,并使用 RGB 完成了具有 44.82% 准确率的 top-1 行为识别。
Oct, 2021
本文研究了时域动作定位的方法,发现基于变压器的方法可以实现更好的分类性能,但不能生成准确的动作提案,最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能,最终在 CVPR2021HACS 挑战中取得了第一名。
Jun, 2021
提出了一种基于 Transformer 的模型 ViFiT,从手机数据(IMU 和 Fine Time Measurements)重构视觉边界框轨迹,并通过一种新颖的评估框架(最小所需帧和最小所需帧比率)证明其在跨模态重构中的优越性能和较高的帧率降低率。
Oct, 2023
利用人眼的稀疏扫描机制,通过引入稀疏扫描自注意机制(S^3A)和稀疏扫描视觉 Transformer(SSViT),有效降低计算负荷,达到在计算机视觉任务中出色的性能表现。
May, 2024
Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.
Aug, 2021