- 高效视频理解的时间自适应模型
通过根据局部和全局时间上下文校准卷积权重,将时空卷积赋予时间建模能力,从而为视频理解提供效率更高、模型容量更大的 TAdaConv,并通过 TAdaConvNeXtV2 和 TAdaFormer 在各种视频理解评估中取得与最先进的基于卷积和 - DPMix: 4D 行动分割的混合深度和点云视频专家
通过将点云视频转换为深度视频并使用传统视频建模方法,提出的深度和点云视频专家混合(DPMix)方法显著提高了四维动作分割的准确性,并在 HOI4D Challenge 2023 的四维动作分割赛道中排名第一。
- 基于语言的动作概念空间改进视频自监督学习
使用自监督学习方法,对图像 CLIP 模型进行语言约束的调整,以适应视频领域,提高三个行动识别基准测试的零样本和线性探测性能。
- TUNeS:一种具有自注意力的时间 U-Net 用于基于视频的手术阶段识别
通过 TUNeS 模型,结合上下文感知的计算机辅助、注意力机制和时序建模,可以在未来手术室中实现自动识别医疗团队正在执行的手术阶段,并在考虑长期时序特征的情况下达到 Cholec80 数据集上的最佳结果。
- ICCV简单算术运算对于时间建模有何作用?
通过计算加法、减法、乘法和除法等四种算术运算,提取帧特征产生辅助时间线索,利用这些线索从原时间无关域中提取对应特征,从而实现简化的时间建模。我们的研究表明,这种算术时间模块 (ATM) 在低计算成本下提供了强大的时间建模能力,并且与基于 C - 跨模态时变关系学习用于生成动态场景图
本研究提出了一种 Time-variant Relation-aware TRansformer(TR^2)模型,通过学习提示句子中关系标签的嵌入差异,实现了跨模态特征指导,设计了一个关系特征融合模块与转换器以及描述相邻帧之间差异的额外信息 - 基于可学习对齐的隐式时间建模视频识别
本文提出了一种新颖的隐式学习对齐(ILA)方法,可在视频中实现高效的空间自注意力,避免了昂贵或不充足的时间自注意力。 在 Kinetics-400 上,提出的 ILA 与 Swin-L 和 ViViT-H 相比,仅使用更少的 FLOPs 即 - CVPR多角度三维物体检测的相机视角位置嵌入
本文提出了一种基于相机视图位置编码(CAPE)的方法,旨在解决基于查询的多视图 3D 目标检测问题,实验结果表明,该方法在 NuScenes 数据集上的表现已达到目前最先进水平。
- CVPR基于互信息的时序差异学习在视频人体姿态估计中的应用
本论文提出了一种新的多帧人体姿势估计框架,利用时间差异跨帧建模动态环境,利用互信息来促进实用运动信息的分离,并在基准数据集上获得排名第一和最优性能。
- 重新审视基于 CLIP 的图像到视频知识传递的时间建模
本论文基于 CLIP 模型,提出了一种名为 STAN 的时空建模机制,用于将图像 - 文本预训练模型扩展到视频领域,并在视频文本检索和视频识别等多项任务中展现了其优越性。
- 动作识别中的 Transformer: 时序模型综述
本文主要介绍了基于 transformers 模型的深度学习方法,用于模拟时间上的变化进行动作识别的研究进展和应用挑战。
- 视频识别中的关注更多、关爱更少
本研究提出了 Ample and Focal Network (AFNet),通过使用两个分支结构来利用更多的帧数,以实现更准确的动作识别,同时确保计算效率。与现有方法相比,EFNet 在使用更多帧数的同时,计算成本更低。在大量的实验中,本 - ECCV视频模型中的动态时间滤波
该研究提出了一种名为 Dynamic Temporal Filter (DTF) 的方法,能够在频率域进行空间感知的时间建模,并具有较大的时间感受野,可将 DTF 模块嵌入 ConvNets 和 Transformer 中,实验结果表明其优 - LongShortNet:流式感知中的时间和语义特征融合探索
提出了 LongShortNet 模型,该模型能够在流处理中捕捉长期时间运动模式、整合短期空间信息,实现空时特征融合,具有较强的检测效果。
- 通过分离空间 - 时间建模学习视频问答的细粒度视觉理解
该论文提出了一种新的视频 - 语言模型:去耦合的空间 - 时间编码器,通过将图像编码器中的空间模型独立于时间进行编码,将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视 - MM在野外进行步态识别的多跳时态交换
提出了一种名为 MTSGait 的新型步态识别网络模型,采用二维卷积模型来进行步态特征的时间建模,通过使用新的采样策略来使模型学习更鲁棒的时间特征,实现了对 GREW 和 Gait3D 等公共野外数据集的优异性能表现。
- CVPR基于分割时空注意力机制的自我中心视频中目标状态变化分类
用基于 Transformer 的视频识别模型,利用分割的时空注意力机制,实现识别以自我为中心的视频中物体状态变化的分类,该模型在 Ego4D: Object State Change Classification Challenge 比赛 - CVPRMLP-3D:一种带有分组时间混合的类 MLP 3D 架构
本文使用 MLP-3D 网络结构实现了基于 token-mixing MLP 和 time mixing 的时序模型,并通过多种不同的 grouping 策略对 GTM 进行了改进,在不使用卷积或 self-attention 机制的情况下 - 揭示视频及语言学习中的单帧偏差
本文探讨了视频与语言学习中基于单帧的模型的应用,结果表明在大规模预训练条件下,采用适当的帧合并策略的单帧训练模型在某些视频与语言任务方面表现更佳,并且作者提出了两个基于现有细粒度动作识别数据集的检索任务,以便更全面地评估视频与语言模型。
- PETRv2: 多摄像头图像三维感知的统一框架
本文提出了 PETRv2,这是一个统一的框架,用于从多视角图像中进行三维感知,基于 PETR,PETRv2 利用先前帧的时间信息进行了时间建模,扩展了 PETR 中的 3D 位置嵌入。PETRv2 提出了一种简单而有效的解决方案,并通过引入