- 层次行为识别:基于对比式视频 - 语言方法和层次交互
通过构建新的细粒度数据集,提出了适用于层级识别的视频 - 语言学习框架,有效地解决了视频识别中的层级分类问题,对于细分子类尤其效果显著,为视频理解任务中的层级建模铺平了道路。
- Transfer-LMR: 多样交通场景中的长尾驾驶行为识别
通过提出 Transfer-LMR 模块化训练方法,可以改善对驾驶行为类别的识别性能,尤其是对于少数表现出现次数较少的驾驶行为。
- ICLR不要以貌取人:视频识别的运动一致增强
本研究探讨了色调变化对视频识别的影响,并提出了一种名为 Motion Coherent Augmentation(MCA)的数据增强方法,通过引入视频中的外观变化,隐式地鼓励模型优先考虑动态模式而非静态外观。我们提出了一个名为 SwapMi - 竖屏模式下的视频识别
通过引入专注于视频识别的首个肖像模式数据集,我们的研究旨在探索这一新兴研究领域,分析肖像模式视频对识别准确性与空间偏差的影响,并在数据增强、评估过程、时间信息和音频模态方面提出了深入的实验,以期激发进一步的研究努力。
- OST: 优化时空描述符提升通用视频识别中的文本知识
通过将大型语言模型应用于视频领域,进行语义空间的优化,从而改善图像 - 语言模型在视频数据上的性能限制,并提高视频识别的准确性。
- CAST: 视频动作识别中的时空交叉注意力
我们提出了一种新的双流架构,称为 Cross-Attention in Space and Time (CAST),它使用 RGB 输入实现了对视频的平衡的时空理解。我们的提出的瓶颈交叉注意机制使得空间和时间专家模型能够交换信息并进行协同预 - 医学超声视频识别中时间特征的相关性研究
我们提出了一种新颖的多头注意力结构,将时间特征排除在外以实现在常见超声任务中更好的样本效率,结果表明,对于一些低数据量的常见超声任务,表达时间无关的模型可能比最先进的视频识别模型更有效。
- ICCV高效图像到视频迁移学习的空间和时间解耦
DiST 是一种双编码器结构,其中预训练的基础模型充当空间编码器,引入了轻量级网络作为时间编码器,通过插入一个集成分支来融合时空信息,从而实现了视频的空间和时间解耦学习,提高了性能表现。
- ICCV事件化的 Transformer:利用视觉 Transformer 中的时间冗余
本文提出了 Eventful Transformers 方法,通过利用视频输入的时间冗余性,对 Vision Transformers 进行计算成本的降低,从而在视频处理中实现了显著的计算节省。
- ICCV音视频扫视网络用于高效视频识别
通过利用音频和视觉模态在视频中高效处理时空重要部分,我们提出了一个名为 AVGN 的音视频感知网络,通过划分视频片段并使用轻量级单模态编码器和音频增强的空间块注意模块,实现了更高效的视频识别。同时结合多种训练技术和多模态特征融合,我们的 A - 创造中的记忆:通过编码阶段的 EEG 预测视频可记性
通过将受试者的脑电图(EEG)信号转化为视觉领域,并利用深度学习技术,研究了记忆性中具有关键意义的瞬间,以预测个体对视频的识别。这些发现不仅支持了节律波(4-8Hz)在右颞叶与陈述性记忆编码中的作用,也支持了存在类似黄金般定义个人经历的有别 - MM长视频中高效的视频识别:在移动时观察
基于 “移动中观察” 新的识别范例,相比于传统的分阶段范例,以更高的效率融合粗粒度采样和细粒度识别的统一时空建模,并通过层次化机制高效捕获、推断长剪辑视频中的单位级和视频级时间语义,实现了新的视频时空建模效率与准确性的权衡。
- ICCV通过语义感知的时间累积修剪时空令牌
为了优化速度和准确度的平衡,我们提出了基于语义感知的时间积累评分(STA)来整体修剪时空令牌。利用 STA 评分,我们能够逐步修剪令牌而不引入额外的参数或需要进一步的再训练。在 Kinetics-400 和 Something-Someth - 视频 FocalNets:时空 Focal 调制用于视频动作识别
本文提出了基于方向聚焦的架构 Video-FocalNet,它是一种有效且高效的视频识别体系结构,用于同时对本地和全局上下文进行建模,相较于现今热门的视频识别模型,该识别模型在三大数据集上表现优异,具有更低的计算成本。
- ICMLHiera: 一种无多余属性的分层视觉 Transformer
本研究旨在通过预训练一个强大的视觉预测任务(MAE)来简化现代分层视觉变压器的结构,从而创造出一个极其简单的分层视觉变压器 Hiera,并在图像和视频识别的多种任务中评估 Hiera 的性能。
- 单帧布局生成多对象视频
该论文研究了视频生成,并着重简化生成条件。作者使用单个帧对象布局作为唯一条件,通过隐式神经表示和布局动态自我推理,提出了一种新的视频生成框架,能够合成全局场景和局部对象,实验结果表明,该模型比基准模型更加有效。
- CVPR可塑性框架网络
提出了一种名为 Frame Flexible Network(FFN)的通用框架,旨在解决现有视频识别算法只针对不同帧数的输入进行不同训练流程的问题以及通过 Multi-Frequency Alignment(MFAL)和 Multi-Fr - ICLR为高效视频识别最大化深度 3D CNN 的时空熵
该研究提出了一种新的无需训练,基于最大熵原则的 3D CNN 信息系统熵评价方法,通过在给定计算预算下,使用进化算法最大化评分以实现高效、具有表达力的 3D CNN 体系结构的自动设计,从而在视频识别方面实现了最先进的性能和更高的计算效率。
- CVPR利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索
本文介绍了一个名叫 BIKE 的,通过使用视频和文本之间的跨模态桥梁,通过视频设置自动补充的文字辅助属性,和通过文本确定带有时间明显性的位置,以增强视频表示,从而有效提高各种识别情景下的视频识别性能的创新框架。 在六个流行的视频数据集中进行 - ECCVAdaFocusV3: 统一的时空动态视频识别
本文探索在改进的 AdaFocusV3 框架上,统一时空动态计算的形式,通过在一些信息丰富的三维视频块上激活高性能网络以降低计算成本,并通过自适应轻量的策略网络在每个样本上根据测试时间的需求动态配置视频块数量,模型经过在 ActivityN