基于注意力机制的空间与时间特征融合在具挑战性丛林相机陷阱镜头下用于大型类人猿识别

ICCVAug, 2019

基于注意力机制的空间与时间特征融合在具挑战性丛林相机陷阱镜头下用于大型类人猿识别

Great Ape Detection in Challenging Jungle Camera Trap Footage via Attention-Based Spatial and Temporal Feature Blending

Xinyu Yang, Majid Mirmehdi, Tilo Burghardt

TL;DR本文提出一种多帧视频目标检测框架，通过添加自我注意力特征混合来检测部分遮挡的森林环境中的大型猿类动物，实验表明该框架能够高效、准确地检测，性能比基于帧的检测器更好，适用范围更广。

Abstract

We propose the first multi-frame video object detection framework trained to detect great apes. It is applicable to challenging camera trap

multi-frame video object detection great apes self-attention partial occlusion camera trap

发现论文，激发创造

大型人猿行为动作的三路深度度量学习

通过使用稠密姿态 - C 黑猩猩身体部位分割流，本文首次提出了度量学习系统用于识别大型人猿的行为动作，并在 PanAf-500 数据集上取得了 12% 的性能提升，通过长尾识别技术，平均每类准确性可提高 23%。

Jan, 2023

PanAf20K：野生猿类检测与行为识别的大型视频数据集

PanAf20K 数据集是迄今为止最大、最多样化的自然环境中大猩猩的开放视频数据集，涵盖了非洲热带地区的 18 个实地点的约 20,000 个照相机陷阱视频的 700 万多帧。该数据集的丰富注释和基准使其适用于训练和测试多种具有挑战性和生态重要性的计算机视觉任务，包括猩猩检测和行为识别，以在支持评估大猩猩的存在、数量、分布和行为，并帮助保护工作中提高性能、效率和结果解释方面，开展 AI 分析照相机陷阱信息至关重要。

Jan, 2024

从森林到动物园：利用 ChimpBehave 进行大型猿类行为识别

本论文介绍了 ChimpBehave，一个包含超过 2 小时视频（约 193,000 帧）的新型数据集，用于动作识别，通过与现有数据集对齐，可以研究领域自适应和跨数据集泛化方法，并使用最先进的基于 CNN 的动作识别模型提供了首个基准结果。

May, 2024

利用非常深的卷积神经网络在相机陷阱图像中识别动物物种，实现野生动物的自动监测

使用深度卷积神经网络在野外通过摄像监控自动识别动物种类的方法，优于之前的尝试，证明了在摄像监控的图像中，识别可以自动化。

Mar, 2016

基于弱标注视频的数据集生成和倭黑猩猩分类

通过使用常用的机器学习方法，该研究论文介绍了一个基于棕猿检测和分类的流程，旨在通过触摸屏设备在棕猿围栏内无需人工辅助地进行测试。使用半自动方式生成的棕猿录音数据集被引入。这些录音数据具有弱标签，并被输入到猕猴检测器中以空间上检测视频中的个体。研究了手工特征结合不同的分类算法和使用 ResNet 架构的深度学习方法来进行棕猿识别。性能通过使用不同的数据分离方法对数据库进行分割后的分类准确性进行比较。我们展示了数据准备的重要性以及错误的数据分离如何导致虚假的良好结果。最后，在对数据进行有意义的分离之后，使用经过微调的 ResNet 模型获得了最佳的分类性能，准确率达到了 75%。

Sep, 2023

图案物种中个体的自动检测与识别

开发了一个自动检测和识别老虎、斑马和美洲豹等有斑点物种个体的框架，使用了 Faster-RCNN 目标检测框架来有效地在图像中检测动物，在动物的侧面提取 AlexNet 特征并训练逻辑回归 (或线性 SVM) 分类器来识别个体。在相机陷阱老虎图像数据集上测试和评估后发现，和最先进的识别技术相比，我们的框架在检测结果方面具有完美的表现，在个体的识别方面，表现相似或更好。

May, 2020

基于无标签视频数据的有规律单独物种自动个体识别

本研究开发了自动分析照相陷阱视频以识别动物个体的管道，该管道基于计算机视觉和深度学习组件，特别是卷积神经网络和尺度不变特征变换，并在非人工交互方面实现了额外组件。该管道可用于保护项目，以减少手动分析工作的时间和提高个体识别的成功率。

Apr, 2023

ChimpVLM：基于行为摘要进行增强的黑猩猩行为识别

我们通过为视觉结构提供对详细物种行为进行描述的文本嵌入，展示出可以增强从摄像陷阱中理解黑猩猩行为的能力。具体而言，我们提出了一种视觉 - 语言模型，它通过对直接从摄像陷阱视频中提取的视觉特征进行多模态解码，处理代表行为的查询标记并输出类别预测。我们使用标准化的黑猩猩行为编码作为查询标记的初始值，而不是使用随机或基于名称的初始化。此外，我们还探索了使用在已知行为模式的文本语料库上进行微调的遮蔽语言模型初始化查询标记的效果。我们在 PanAf500 和 PanAf20K 数据集上评估了我们的系统，并证明了我们的多模态解码方法和查询初始化策略在多类别和多标签识别任务上的性能优势。结果和消融分析支持性能的改进。我们在 PanAf500 上的 top-1 准确率上实现了优于视觉和视觉 - 语言模型 6.34％的最先进性能，以及在 PanAf20K 上的总体（+ 1.1％）和尾类（+ 2.26％）均值平均精度。我们分享完整的源代码和网络权重，以便能够完全复现结果并进行轻松使用。

Apr, 2024

相机陷阱图像中野生动物开放式长尾识别的时间流掩码注意力

本研究使用无人照相机和深度学习技术收集野生动物图像，并采用 Temporal Flow Mask Attention Network 网络来解决开放性长尾识别问题，该网络包含光流模块、注意力残差模块和元嵌入分类器，实验证明该方法在未知分类上具有泛化性能。

Aug, 2022

在视频中检测出被关注的视觉目标

本研究解决了视频中检测注意目标的问题，通过机器学习模型和新的数据集可以有效推断动态的注视点，并在社交注视行为分类任务中取得了最佳表现。

Mar, 2020