基于注意力机制的空间与时间特征融合在具挑战性丛林相机陷阱镜头下用于大型类人猿识别
通过使用稠密姿态 - C 黑猩猩身体部位分割流,本文首次提出了度量学习系统用于识别大型人猿的行为动作,并在 PanAf-500 数据集上取得了 12% 的性能提升,通过长尾识别技术,平均每类准确性可提高 23%。
Jan, 2023
PanAf20K 数据集是迄今为止最大、最多样化的自然环境中大猩猩的开放视频数据集,涵盖了非洲热带地区的 18 个实地点的约 20,000 个照相机陷阱视频的 700 万多帧。该数据集的丰富注释和基准使其适用于训练和测试多种具有挑战性和生态重要性的计算机视觉任务,包括猩猩检测和行为识别,以在支持评估大猩猩的存在、数量、分布和行为,并帮助保护工作中提高性能、效率和结果解释方面,开展 AI 分析照相机陷阱信息至关重要。
Jan, 2024
本论文介绍了 ChimpBehave,一个包含超过 2 小时视频(约 193,000 帧)的新型数据集,用于动作识别,通过与现有数据集对齐,可以研究领域自适应和跨数据集泛化方法,并使用最先进的基于 CNN 的动作识别模型提供了首个基准结果。
May, 2024
使用深度卷积神经网络在野外通过摄像监控自动识别动物种类的方法,优于之前的尝试,证明了在摄像监控的图像中,识别可以自动化。
Mar, 2016
通过使用常用的机器学习方法,该研究论文介绍了一个基于棕猿检测和分类的流程,旨在通过触摸屏设备在棕猿围栏内无需人工辅助地进行测试。使用半自动方式生成的棕猿录音数据集被引入。这些录音数据具有弱标签,并被输入到猕猴检测器中以空间上检测视频中的个体。研究了手工特征结合不同的分类算法和使用 ResNet 架构的深度学习方法来进行棕猿识别。性能通过使用不同的数据分离方法对数据库进行分割后的分类准确性进行比较。我们展示了数据准备的重要性以及错误的数据分离如何导致虚假的良好结果。最后,在对数据进行有意义的分离之后,使用经过微调的 ResNet 模型获得了最佳的分类性能,准确率达到了 75%。
Sep, 2023
开发了一个自动检测和识别老虎、斑马和美洲豹等有斑点物种个体的框架,使用了 Faster-RCNN 目标检测框架来有效地在图像中检测动物,在动物的侧面提取 AlexNet 特征并训练逻辑回归 (或线性 SVM) 分类器来识别个体。在相机陷阱老虎图像数据集上测试和评估后发现,和最先进的识别技术相比,我们的框架在检测结果方面具有完美的表现,在个体的识别方面,表现相似或更好。
May, 2020
本研究开发了自动分析照相陷阱视频以识别动物个体的管道,该管道基于计算机视觉和深度学习组件,特别是卷积神经网络和尺度不变特征变换,并在非人工交互方面实现了额外组件。该管道可用于保护项目,以减少手动分析工作的时间和提高个体识别的成功率。
Apr, 2023
我们通过为视觉结构提供对详细物种行为进行描述的文本嵌入,展示出可以增强从摄像陷阱中理解黑猩猩行为的能力。具体而言,我们提出了一种视觉 - 语言模型,它通过对直接从摄像陷阱视频中提取的视觉特征进行多模态解码,处理代表行为的查询标记并输出类别预测。我们使用标准化的黑猩猩行为编码作为查询标记的初始值,而不是使用随机或基于名称的初始化。此外,我们还探索了使用在已知行为模式的文本语料库上进行微调的遮蔽语言模型初始化查询标记的效果。我们在 PanAf500 和 PanAf20K 数据集上评估了我们的系统,并证明了我们的多模态解码方法和查询初始化策略在多类别和多标签识别任务上的性能优势。结果和消融分析支持性能的改进。我们在 PanAf500 上的 top-1 准确率上实现了优于视觉和视觉 - 语言模型 6.34%的最先进性能,以及在 PanAf20K 上的总体(+ 1.1%)和尾类(+ 2.26%)均值平均精度。我们分享完整的源代码和网络权重,以便能够完全复现结果并进行轻松使用。
Apr, 2024
本研究使用无人照相机和深度学习技术收集野生动物图像,并采用 Temporal Flow Mask Attention Network 网络来解决开放性长尾识别问题,该网络包含光流模块、注意力残差模块和元嵌入分类器,实验证明该方法在未知分类上具有泛化性能。
Aug, 2022