- 从森林到动物园:利用 ChimpBehave 进行大型猿类行为识别
本论文介绍了 ChimpBehave,一个包含超过 2 小时视频(约 193,000 帧)的新型数据集,用于动作识别,通过与现有数据集对齐,可以研究领域自适应和跨数据集泛化方法,并使用最先进的基于 CNN 的动作识别模型提供了首个基准结果。
- AI 技术对特征保留上下文中的工业图像和视频数据进行匿名化研究
随着技术的不断提升,保护隐私信息变得越来越重要。本研究应用基于深度学习的全身匿名化框架 DeepPrivacy2,将人工身份生成应用于工业图像和视频数据,并与传统匿名化技术进行性能比较,考虑了身份生成质量、时间一致性以及姿势估计和动作识别的 - 基于微动作理解的无身份人工情绪智能
本研究关注一类特殊的人体语言,即微小手势(MG),针对微小手势的动作识别和情感理解进行了研究,提出了多种增强策略和时空平衡融合方法,并通过实验证明了这些方法在微小手势识别和情感理解中的有效性。
- CVPR粗细选取:无需标签识别动作终止状态
我们研究了在图像中识别动作的结束状态的问题,重点是预测切割的粗细,通过合成训练数据的方法进行数据增广,使用基于 UNet 的模型进行训练,并且成功地识别了切割动作的结束状态,展示了模型在训练和测试之间的领域转化,并且对未知对象具有良好的泛化 - 深度视频动作识别中的骨干网络调查
该论文综述了基于深度神经网络的几种动作识别方法,包括两流网络、三维卷积网络和基于 Transformer 的方法,并提供了客观的观点以供未来研究参考。
- JOSENet:一种用于监控视频中暴力检测的联合流嵌入网络
自监督学习方法 JOSENet 在监控视频中的暴力检测任务中表现出色,提供了改进的性能,同时需要较少的帧数和降低的帧率。
- 基于有向 Gromov-Wasserstein 差异的多视角动作识别
我们提出了一种多视角注意力一致性方法,使用有向 Gromov-Wasserstein 差异计算来自行动视频的两个不同视角的注意力之间的相似度。此外,在单视角数据集上训练时,我们的方法应用了神经辐射场的思想来隐式渲染来自新视角的特征。与最近的 - 将动作与行走与由 LLM 生成的文本描述对齐
本研究探讨了使用大型语言模型 (LLMs) 生成丰富文本描述来描述包括动作和步行模式的运动序列,旨在提高动作识别与根据外观属性检索步行序列的能力,通过应用 LLMs 生成动作的文本描述和运用 LLMs 生成从 DenseGait 数据集中的 - 利用时间语境进行视频动作识别
TC-CLIP 是一种改进的视觉语言模型,通过引入时间上下文信息和制造上下文令牌来实现视频理解和行为识别的效果提升。
- 基于动画的视频增强方法用于非连续视频的动作识别
研究表明,由于其在多个领域的广泛应用,动作识别研究近年来引起了相当大的关注。然而,关于不连续训练视频的问题仍然未得到充分探索,这不仅降低了动作识别模型的性能,还复杂化了数据增强过程。本研究介绍了一种创新的数据增强流程 ——4A(基于动画的动 - CVPRTIM: 音视频动作识别的时间间隔机器
在长视频中,多样的行为产生丰富的视听信号。我们通过显式地建模音频和视觉事件的时间范围,解决了长视频中这两种模态之间的相互作用。我们提出了一种时间间隔机器(TIM),其中以特定模态的时间间隔作为查询,将长视频输入馈入转换器编码器。然后,编码器 - 利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别
本文探讨了零样本大型多模态模型(Large Multimodal Models,LMMs)在无人机感知领域的潜力以及其在人体检测和动作识别任务中的应用。研究结果表明,YOLO-World 在检测性能上表现良好,而 GPT-4V 在准确分类动 - 基于超图的多视角动作识别使用事件摄像机
多视角基于事件的行为识别框架 HyperMV 在多视角事件数据利用方面填补了现有研究的差距,并引入了最大的多视角基于事件的行为数据集 THU-MV-EACT-50,通过实验结果证明 HyperMV 在跨主体和跨视角情况下明显优于基线模型,同 - CVPROmniVid: 通用视频理解的生成框架
通过使用语言作为标签并引入时间和区域标记,我们寻求统一视频理解任务的输出空间,以建立全共享的编码器 - 解码器架构,并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果,为更普遍的视频理解提供了新的观点。
- 从活动识别的角度进行情绪识别
通过探索深度学习体系结构在持续情感识别方面的应用,我们提出了一种新颖的三流端到端深度学习回归流程,其中包含一个注意力机制,该机制是基于多个最先进的动作识别系统的子模块的一种组合设计。定量分析表明,所提出的模型优于情感识别和动作识别模型的多个 - InternVideo2:面向多模态视频理解的视频基础模型的扩展
我们介绍 InternVideo2,这是一种新的视频基础模型(ViFM),在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式,统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督 - CVPRExACT:基于语言引导的概念推理和不确定性估计,用于基于事件的动作识别及更多
采用跨模态概念化的角度,本文提出了一种名为 ExACT 的新方法,从事件感知的角度来解决基于事件的动作识别问题。通过自适应细粒度事件表示筛选出重复事件,并利用概念推理和不确定性估计模块来增强语义表征,实验结果表明,ExACT 在不同数据集上 - VideoBadminton:一个用于羽毛球动作识别的视频数据集
通过对高质量羽毛球镜头的全面评估,本研究旨在推进动作识别领域,尤其是在羽毛球运动中。引入 VideoBadminton 数据集不仅可以用于羽毛球动作识别,还可以提供一个识别细粒度动作的数据集。从这些评估中获得的见解有望催生更多在运动背景下的 - 关于利用三维手势姿势进行动作识别的实用性研究
手势建模是行为识别的一种未充分探索的方式。我们提出了一种新颖的多模态变换器 HandFormer 来高效地对手势和场景语义进行建模,该方法在处理效率和准确率方面具有显著优势,并在自我中心行为识别方面取得了最新的最好性能。
- 注意力提示调整:参数高效的预训练模型适应时空建模
通过在 transformer 模块的键和值中直接插入提示信息,我们提出了注意力提示调整(Attention Prompt Tuning,APT)方法,从而在视频行为识别中大大减少了浮点运算和延迟,并在 UCF101、HMDB51 和 SS