SFMViT：慢快相遇在混沌世界中

Apr, 2024

SFMViT: SlowFast Meet ViT in Chaotic World

Jiaying Lin, Jiajun Wen, Mengyuan Liu, Jinfu Liu, Baiqiao Yin...

TL;DR通过使用具有高质量视频特征提取的双流时空特征提取网络 SFMViT 和锚定修剪策略，我们有效地提高了模型性能，并在混乱场景中实现了 26.62% 的平均精度 (mAP)。

Abstract

The task of spatiotemporal action localization in chaotic scenes is a challenging task toward advanced video understanding. Paving the way with high-quality →

spatiotemporal action localization video understanding video feature extraction model performance anchor pruning strategy

发现论文，激发创造

流媒体视频模型

提出了一种名为 “Streaming Vision Transformer” 的流式视频架构，利用具有内存功能的时间感知空间编码器产生帧级特征，供基于帧的视频任务使用；然后将帧级特征输入到与任务相关的时间解码器中，获得用于序列化任务的时空特征，该模型在行动识别任务中具有最先进的准确度，并在基于帧的多目标跟踪任务中具有竞争优势。

Mar, 2023

慢快网络用于视频识别

介绍了 SlowFast 网络用于视频识别，它包括 Slow 路径和 Fast 路径，其中 Slow 路径能捕捉空间语义，Fast 路径能捕捉精细时间分辨率的动态信息，并能在减小通道容量的前提下实现高精度的视频识别。

Dec, 2018

FMViT：多频混合视觉 Transformer

通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型，以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销，我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能，相比现有的 CNNs，ViTs 和 CNNTransformer 混合架构，FMViT 在性能和计算开销方面取得了卓越的成果。

Nov, 2023

VIPriors 行动识别挑战赛挑战报告

本文研究行动识别问题，结合 SlowFast 网络和 TSM 方法，在视频中提取运动特征可以使用残差帧作为输入和 RGB 帧输入模型的优秀补充，通过 3D 卷。积（SlowFast）与 2D 卷积（TSM）的组合取得更好的性能结果，以上实验均在 UCF101 中从头开始训练。

Jul, 2020

LoViT：用于外科阶段识别的长视频 Transformer

本文介绍了一种称为长视频变压器（LoViT）的两阶段方法，用于融合短期和长期时间信息的融合，可以比当前的方法更好地处理手术过程中的长视频，并通过将本地和全局特征结合起来使用多尺度时间聚合器对手术相位进行分类。研究发现，与现有的方法相比，LoViT 在两个手术视频数据集上的表现最优

May, 2023

SAIC_Cambridge-HuPBA-FBK 参与 EPIC-Kitchens-100 动作识别挑战赛 2021

本文讨论了我们参加 EPIC-Kitchens-100 行为识别挑战的技术细节，其中我们使用 GSF 和 XViT 等模型进行空间 - 时间特征提取和聚合，设计了不同 Backbones 和 Pretraining 的混合模型，并使用 RGB 完成了具有 44.82% 准确率的 top-1 行为识别。

Oct, 2021

探究用于时序动作定位的更强特征

本文研究了时域动作定位的方法，发现基于变压器的方法可以实现更好的分类性能，但不能生成准确的动作提案，最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能，最终在 CVPR2021HACS 挑战中取得了第一名。

Jun, 2021

ViFiT：从 IMU 和 Wi-Fi 精确时间测量重建视觉轨迹

提出了一种基于 Transformer 的模型 ViFiT，从手机数据（IMU 和 Fine Time Measurements）重构视觉边界框轨迹，并通过一种新颖的评估框架（最小所需帧和最小所需帧比率）证明其在跨模态重构中的优越性能和较高的帧率降低率。

Oct, 2023

稀疏扫描先验的视觉转换器

利用人眼的稀疏扫描机制，通过引入稀疏扫描自注意机制（S^3A）和稀疏扫描视觉 Transformer（SSViT），有效降低计算负荷，达到在计算机视觉任务中出色的性能表现。

May, 2024

Evo-ViT: 动态视觉 Transformer 的慢 - 快标记演化

Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.

Aug, 2021