- IJCAISVFormer:一种直接训练的脉冲转换器用于高效的视频动作识别
我们研究了利用脉冲神经网络的直接训练的 SVFormer(Spiking Video transFormer)进行视频动作识别,通过整合局部特征提取、全局自注意力和 SNN 的内在动态、稀疏性和脉冲驱动特性,以更高效和有效的方式提取时空特征 - CVPR探索视频动作识别中的可解释性
我们提出了一个用于研究动作识别假设并定量测试的框架,从而推进视频动作识别中深度神经网络的可解释性研究。
- CVPR语言模型引导的可解释视频行为推理
通过语言模型引导的可解释的动作识别框架 (LaIAR),提高了视频模型的性能和可解释性。
- 在工业装配线上利用基础模型自动数据增强策略和骨骼点进行手部动作识别
在现代工业装配线上,研发了许多智能算法来取代或监督工人。然而,我们发现在实际装配线上部署算法时,训练数据集和实时性能存在瓶颈。因此,我们开发了一种有前景的策略,利用具有强大泛化能力的大型模型来实现高效、高质量和大规模的数据集扩充,解决了工业 - 基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别
该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型,改善时间定位和分类准确性表现。最终,通过从不同的摄像头视角获取信息并消除误报,该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色,实现了优化 - 对抗性增强训练使行动识别模型更能适应现实视频分布的变化
提出了两种新的评估方法来评估模型对训练和测试数据之间的分布差异的鲁棒性,通过采用梯度上升在数据增强参数上生成对分类模型具有挑战性的视频视图的增强视图,并通过 ' 课程 ' 调度视频增强的强度来解决鲁棒性问题。在现实世界的应用中,通过对比基准 - AAAI基于生成模型的特征知识蒸馏用于行为识别
本研究提出了一种创新的知识蒸馏框架,利用生成模型训练轻量级学生模型,通过特征表示和基于生成模型的特征蒸馏阶段,转移基于注意力的特征语义,在视频动作识别任务中显示出显著的性能改进。
- 带有屏蔽预训练和协作自训练的无监督视频领域适应
本研究解决了视频动作识别中的无监督领域适应问题。我们的方法称为 UNITE,利用图像教师模型将视频学生模型适应到目标域。UNITE 首先使用自监督预训练来促进目标域视频的辨别性特征学习,使用教师引导的遮蔽蒸馏目标进行自训练。然后,我们使用视 - DEVIAS: 为整体视频理解学习动作和场景的脱缰视频表示
通过 Disentangled VIdeo representations of Action and Scene (DEVIAS) 提出了一种细分行动和场景表示的方法,利用 slot attention 和辅助任务来有效提高视频理解性能。
- 视频动作识别的选择性卷积混合
在本文中,我们提出了一种名为选择性体积混合(SV-Mix)的视频增强策略,以改善在训练样本有限的情况下深度模型的泛化能力,在各种视频动作识别基准上提升了基于 CNN 和 Transformer 模型的性能。
- 基于时域分布的视频行为识别反向攻击
本文介绍了一种针对视频数据的简单而有效的后门攻击方法,通过在转化域中添加微不可见、时间分布的触发器来跨视频帧进行攻击,并在对 UCF101、HMDB51 和希腊手语(GSL)数据集进行了广泛的实验验证其有效性,同时通过深入研究发现一种称为 - ICCVJEDI:半监督多数据集场景下的视频动作识别中联合专家蒸馏
我们提出了 JEDI,一种多数据集半监督学习方法,通过有效地结合来自多个专家的知识,这些专家在不同的数据集上进行了学习,以训练和提高单个数据集的学生模型的性能。我们的方法解决了当前机器学习研究中的两个重要问题:跨数据集的泛化和由于标签数据稀 - ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索
本研究提出了首个基于姿势增强的视觉语言模型(VLM)用于视频动作识别,该方案在 UCF-101 和 HMDB-51 两个常用数据集上分别达到 92.81% 和 73.02% 的准确率,在动态学习预训练后准确率分别达到 96.11% 和 75 - 样本减少,学习更多:通过帧特征修复实现高效动作识别
通过恢复两个稀疏采样和相邻视频帧的中间特征,本研究提出了一种新方法,以解决过采样帧引起的性能下降问题,并且在几个常用基线方法上提高了 50% 以上的效率,仅导致 0.5% 的识别准确率降低,同时在零 - shot 设置下也意外地改善了模型的 - 基于时空注意力的实时视频识别语义压缩
本文研究边缘计算中视频动作识别的计算卸载。为了实现有效的语义信息提取,本文提出了一种新的空时注意力自编码器(STAE)结构,包括帧注意力模块和空间注意力模块。实验证明,在时间约束下,与 DeepISC 的基准模型相比,基于 STAE 的 V - 视频动作识别的持续学习方法基线
本文旨在针对视频动作识别领域提出一种有效的、高效的方法来解决模型不断学习的问题,包括使用模型信心或数据信息来选择可记忆的样本的方法,并针对此方法进行评估,得出了在小缓冲区的条件下表现出更高的学习效果。
- 基于负学习、熵和方差正则化的新动作类别发现
NEV-NCD 算法结合负学习、信息熵、方差正则化的方法,实现了对视频动作识别中的未标注数据的分类准确率的提升。
- PMI Sampler: 基于图像块相似度指导的航拍行动识别帧选择
本文提出了一种用于视频动作识别的新算法,旨在从航拍视频中选择包含人在内的高运动唯象帧,该算法通过利用航拍视频中的运动偏差,利用了一些简单的重叠分析来识别视频中仅仅包含对应行为的帧。
- CVPR动作识别的视频测试时间适应
该研究提出了一种针对空间 - 时间模型的方法,它能够在单个视频样本上进行特征分布对齐,保证了预测的一致性,并且在三个基准行动识别数据集上都表现出极高的性能。
- CVPR视频行为识别模型的大规模稳健性分析
本文对现有的视频动作识别模型进行大规模的复杂性分析,提供了不同的基准数据集,并研究了现有模型对 90 种不同扰动的鲁棒性,结果表明,基于 Transformer 的模型相对于基于 CNN 的模型更具鲁棒性。