大型人猿行为动作的三路深度度量学习
本论文介绍了 ChimpBehave,一个包含超过 2 小时视频(约 193,000 帧)的新型数据集,用于动作识别,通过与现有数据集对齐,可以研究领域自适应和跨数据集泛化方法,并使用最先进的基于 CNN 的动作识别模型提供了首个基准结果。
May, 2024
本文提出一种多帧视频目标检测框架,通过添加自我注意力特征混合来检测部分遮挡的森林环境中的大型猿类动物,实验表明该框架能够高效、准确地检测,性能比基于帧的检测器更好,适用范围更广。
Aug, 2019
我们通过为视觉结构提供对详细物种行为进行描述的文本嵌入,展示出可以增强从摄像陷阱中理解黑猩猩行为的能力。具体而言,我们提出了一种视觉 - 语言模型,它通过对直接从摄像陷阱视频中提取的视觉特征进行多模态解码,处理代表行为的查询标记并输出类别预测。我们使用标准化的黑猩猩行为编码作为查询标记的初始值,而不是使用随机或基于名称的初始化。此外,我们还探索了使用在已知行为模式的文本语料库上进行微调的遮蔽语言模型初始化查询标记的效果。我们在 PanAf500 和 PanAf20K 数据集上评估了我们的系统,并证明了我们的多模态解码方法和查询初始化策略在多类别和多标签识别任务上的性能优势。结果和消融分析支持性能的改进。我们在 PanAf500 上的 top-1 准确率上实现了优于视觉和视觉 - 语言模型 6.34%的最先进性能,以及在 PanAf20K 上的总体(+ 1.1%)和尾类(+ 2.26%)均值平均精度。我们分享完整的源代码和网络权重,以便能够完全复现结果并进行轻松使用。
Apr, 2024
PanAf20K 数据集是迄今为止最大、最多样化的自然环境中大猩猩的开放视频数据集,涵盖了非洲热带地区的 18 个实地点的约 20,000 个照相机陷阱视频的 700 万多帧。该数据集的丰富注释和基准使其适用于训练和测试多种具有挑战性和生态重要性的计算机视觉任务,包括猩猩检测和行为识别,以在支持评估大猩猩的存在、数量、分布和行为,并帮助保护工作中提高性能、效率和结果解释方面,开展 AI 分析照相机陷阱信息至关重要。
Jan, 2024
利用无人机进行多个个体的同时跟踪,以更好地理解群居灵长类动物的行为;本研究通过无人机视频提出了一种新的研究数据集,用于猴子的检测、追踪和行为识别,结果表明利用深度学习可以对野生动物的行为进行分类,提供对整个群体集体行为的非侵入性洞察。
May, 2024
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
Apr, 2021
本研究介绍了针对少样本学习的视频动作识别任务,采用双流模型和三种常见的基于度量的算法,通过一组卷积和递归神经网络视频编码器进行训练和评估,证实了双流设置的重要性,并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中,该设置在测试集上获得了 84.2% 的准确度,而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。
Sep, 2019
本文提出了一个以深度度量学习为基础的单次动作识别方法,使用图像骨骼表示法,在嵌入空间中训练模型,在 NTU RGB+D 120 数据集中,实现了单次动作识别协议最新的 3.3%提升,在附加数据增强后提高了超过 7.7%。
Dec, 2020
本文提出了一种名为 Action Machine 的基于人物框架的行为识别方法,通过将 Inflated 3D ConvNet (I3D) 与人体姿态估计和基于姿态的行为识别相结合,实现了在裁剪视频中的高性能行为识别,并在多个数据集上取得了 State-of-the-Art 的表现。
Dec, 2018
本文提出了一种网络体系结构,计算和整合了人类动作识别中最重要的视觉线索:姿态,运动和原始图像,并引入了马尔科夫链模型进行融合,在 HMDB51,J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。
Apr, 2017