大型人猿行为动作的三路深度度量学习

Jan, 2023

大型人猿行为动作的三路深度度量学习

Triple-stream Deep Metric Learning of Great Ape Behavioural Actions

Otto Brookes, Majid Mirmehdi, Hjalmar Kühl, Tilo Burghardt

TL;DR通过使用稠密姿态 - C 黑猩猩身体部位分割流，本文首次提出了度量学习系统用于识别大型人猿的行为动作，并在 PanAf-500 数据集上取得了 12% 的性能提升，通过长尾识别技术，平均每类准确性可提高 23%。

Abstract

We propose the first metric learning system for the recognition of great ape behavioural actions. Our proposed triple stream embedding architecture works on camera trap videos taken directly in the wild and demonstrates that the utilisation of an explicit →

metric learning system great ape behavioural actions densepose-c chimpanzee body part segmentation feature fusion techniques long-tail recognition

发现论文，激发创造

从森林到动物园：利用 ChimpBehave 进行大型猿类行为识别

本论文介绍了 ChimpBehave，一个包含超过 2 小时视频（约 193,000 帧）的新型数据集，用于动作识别，通过与现有数据集对齐，可以研究领域自适应和跨数据集泛化方法，并使用最先进的基于 CNN 的动作识别模型提供了首个基准结果。

May, 2024

基于注意力机制的空间与时间特征融合在具挑战性丛林相机陷阱镜头下用于大型类人猿识别

本文提出一种多帧视频目标检测框架，通过添加自我注意力特征混合来检测部分遮挡的森林环境中的大型猿类动物，实验表明该框架能够高效、准确地检测，性能比基于帧的检测器更好，适用范围更广。

Aug, 2019

ChimpVLM：基于行为摘要进行增强的黑猩猩行为识别

我们通过为视觉结构提供对详细物种行为进行描述的文本嵌入，展示出可以增强从摄像陷阱中理解黑猩猩行为的能力。具体而言，我们提出了一种视觉 - 语言模型，它通过对直接从摄像陷阱视频中提取的视觉特征进行多模态解码，处理代表行为的查询标记并输出类别预测。我们使用标准化的黑猩猩行为编码作为查询标记的初始值，而不是使用随机或基于名称的初始化。此外，我们还探索了使用在已知行为模式的文本语料库上进行微调的遮蔽语言模型初始化查询标记的效果。我们在 PanAf500 和 PanAf20K 数据集上评估了我们的系统，并证明了我们的多模态解码方法和查询初始化策略在多类别和多标签识别任务上的性能优势。结果和消融分析支持性能的改进。我们在 PanAf500 上的 top-1 准确率上实现了优于视觉和视觉 - 语言模型 6.34％的最先进性能，以及在 PanAf20K 上的总体（+ 1.1％）和尾类（+ 2.26％）均值平均精度。我们分享完整的源代码和网络权重，以便能够完全复现结果并进行轻松使用。

Apr, 2024

PanAf20K：野生猿类检测与行为识别的大型视频数据集

PanAf20K 数据集是迄今为止最大、最多样化的自然环境中大猩猩的开放视频数据集，涵盖了非洲热带地区的 18 个实地点的约 20,000 个照相机陷阱视频的 700 万多帧。该数据集的丰富注释和基准使其适用于训练和测试多种具有挑战性和生态重要性的计算机视觉任务，包括猩猩检测和行为识别，以在支持评估大猩猩的存在、数量、分布和行为，并帮助保护工作中提高性能、效率和结果解释方面，开展 AI 分析照相机陷阱信息至关重要。

Jan, 2024

狒狒之地数据集：野外灵长类追踪与无人机视频行为识别自动化

利用无人机进行多个个体的同时跟踪，以更好地理解群居灵长类动物的行为；本研究通过无人机视频提出了一种新的研究数据集，用于猴子的检测、追踪和行为识别，结果表明利用深度学习可以对野生动物的行为进行分类，提供对整个群体集体行为的非侵入性洞察。

May, 2024

三流网络用于增强动作识别

该论文提出了两种基于 CNN 的体系结构，包括三种流，可以分别捕捉不同速率的空间和时间信息，并使用双向 LSTM 和注意力机制进一步提高模型性能，实现了人类动作识别任务的最先进表现。

Apr, 2021

基于度量的视频动作识别小样本学习

本研究介绍了针对少样本学习的视频动作识别任务，采用双流模型和三种常见的基于度量的算法，通过一组卷积和递归神经网络视频编码器进行训练和评估，证实了双流设置的重要性，并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中，该设置在测试集上获得了 84.2% 的准确度，而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。

Sep, 2019

Skeleton-DML: 基于骨架的单次动作识别的深度度量学习

本文提出了一个以深度度量学习为基础的单次动作识别方法，使用图像骨骼表示法，在嵌入空间中训练模型，在 NTU RGB+D 120 数据集中，实现了单次动作识别协议最新的 3.3％提升，在附加数据增强后提高了超过 7.7％。

Dec, 2020

动作机器：重新思考裁剪视频中的动作识别

本文提出了一种名为 Action Machine 的基于人物框架的行为识别方法，通过将 Inflated 3D ConvNet (I3D) 与人体姿态估计和基于姿态的行为识别相结合，实现了在裁剪视频中的高性能行为识别，并在多个数据集上取得了 State-of-the-Art 的表现。

Dec, 2018

利用姿态、动作和外观进行动作分类和检测的串联多流网络

本文提出了一种网络体系结构，计算和整合了人类动作识别中最重要的视觉线索：姿态，运动和原始图像，并引入了马尔科夫链模型进行融合，在 HMDB51，J-HMDB 和 NTU RGB+D 数据集上达到最先进的动作分类性能和在 UCF101 和 J-HMDB 数据集上达到最先进的时空动作定位结果。

Apr, 2017