ChimpVLM：基于行为摘要进行增强的黑猩猩行为识别

Apr, 2024

ChimpVLM：基于行为摘要进行增强的黑猩猩行为识别

ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition

Otto Brookes, Majid Mirmehdi, Hjalmar Kuhl, Tilo Burghardt

TL;DR我们通过为视觉结构提供对详细物种行为进行描述的文本嵌入，展示出可以增强从摄像陷阱中理解黑猩猩行为的能力。具体而言，我们提出了一种视觉 - 语言模型，它通过对直接从摄像陷阱视频中提取的视觉特征进行多模态解码，处理代表行为的查询标记并输出类别预测。我们使用标准化的黑猩猩行为编码作为查询标记的初始值，而不是使用随机或基于名称的初始化。此外，我们还探索了使用在已知行为模式的文本语料库上进行微调的遮蔽语言模型初始化查询标记的效果。我们在 PanAf500 和 PanAf20K 数据集上评估了我们的系统，并证明了我们的多模态解码方法和查询初始化策略在多类别和多标签识别任务上的性能优势。结果和消融分析支持性能的改进。我们在 PanAf500 上的 top-1 准确率上实现了优于视觉和视觉 - 语言模型 6.34％的最先进性能，以及在 PanAf20K 上的总体（+ 1.1％）和尾类（+ 2.26％）均值平均精度。我们分享完整的源代码和网络权重，以便能够完全复现结果并进行轻松使用。

Abstract

We show that chimpanzee behaviour understanding from camera traps can be enhanced by providing visual architectures with access to an embedding of text descriptions that detail species behaviours. In particular,

chimpanzee behaviour understanding camera traps vision-language model multi-modal decoding query initialisation

发现论文，激发创造

大型人猿行为动作的三路深度度量学习

通过使用稠密姿态 - C 黑猩猩身体部位分割流，本文首次提出了度量学习系统用于识别大型人猿的行为动作，并在 PanAf-500 数据集上取得了 12% 的性能提升，通过长尾识别技术，平均每类准确性可提高 23%。

Jan, 2023

从森林到动物园：利用 ChimpBehave 进行大型猿类行为识别

本论文介绍了 ChimpBehave，一个包含超过 2 小时视频（约 193,000 帧）的新型数据集，用于动作识别，通过与现有数据集对齐，可以研究领域自适应和跨数据集泛化方法，并使用最先进的基于 CNN 的动作识别模型提供了首个基准结果。

May, 2024

GPT-4o：多模大型语言模型在仔猪活动理解中的视觉感知表现

动物行为识别研究评估了多模态大型语言模型在畜牧场景视频理解中的视觉感知能力，并验证了其在动物活动识别方面的潜力以及对未来动物行为视频理解研究提供了新的方向和参考。

Jun, 2024

PanAf20K：野生猿类检测与行为识别的大型视频数据集

PanAf20K 数据集是迄今为止最大、最多样化的自然环境中大猩猩的开放视频数据集，涵盖了非洲热带地区的 18 个实地点的约 20,000 个照相机陷阱视频的 700 万多帧。该数据集的丰富注释和基准使其适用于训练和测试多种具有挑战性和生态重要性的计算机视觉任务，包括猩猩检测和行为识别，以在支持评估大猩猩的存在、数量、分布和行为，并帮助保护工作中提高性能、效率和结果解释方面，开展 AI 分析照相机陷阱信息至关重要。

Jan, 2024

基于注意力机制的空间与时间特征融合在具挑战性丛林相机陷阱镜头下用于大型类人猿识别

本文提出一种多帧视频目标检测框架，通过添加自我注意力特征混合来检测部分遮挡的森林环境中的大型猿类动物，实验表明该框架能够高效、准确地检测，性能比基于帧的检测器更好，适用范围更广。

Aug, 2019

与 LLM 对齐：一种用于编码视觉皮层 fMRI 活动的新型多模态训练范式

提出了一种新的多模态训练范式，用于编码视觉皮层中的 fMRI 活动。使用预训练的 LLM 和对比损失函数完成图像和文本信息的对齐，提高了视觉编码模型的性能。

Jan, 2024

摄像陷阱图像中零样本动物物种识别的多模态基础模型

通过减少对昂贵的标记数据的依赖，我们提出了一种新的零样本物种分类方法 WildMatch，该方法使用多模态基础模型，利用人们熟悉的术语生成摄像机陷阱图像的详细视觉描述，并将生成的描述与外部知识库中的描述进行匹配，以零样本的方式确定物种。我们还研究了构建详细动物描述生成的指导调优数据集的技术，并提出了一种新的知识增强技术来提高描述质量。我们在哥伦比亚 Magdalena Medio 地区的一个新的摄像机陷阱数据集上展示了 WildMatch 的性能。

Nov, 2023

TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

我们介绍了 TextMonkey，一个大型多模态模型（LMM），该模型针对以文本为中心的任务，包括文档问题回答（DocVQA）和场景文本分析。通过采用零初始化的 Shifted Window Attention，我们在更高的输入分辨率下实现了跨窗口连接，并稳定了早期训练；我们假设图像可能包含冗余的标记，通过使用相似性过滤显著的标记，我们不仅可以简化标记长度，还可以提高模型的性能。此外，通过扩展模型的能力，包括文本定位和基准化，并将位置信息融入响应中，我们增强了可解释性并减少了产生虚幻结果的情况。另外，TextMonkey 可以进行微调，以具备理解点击截图命令的能力。总体而言，我们的方法显著提升了在各种基准数据集上的性能，尤其在 OCRBench 上获得了 561 分的分数，超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。

Mar, 2024

狒狒之地数据集：野外灵长类追踪与无人机视频行为识别自动化

利用无人机进行多个个体的同时跟踪，以更好地理解群居灵长类动物的行为；本研究通过无人机视频提出了一种新的研究数据集，用于猴子的检测、追踪和行为识别，结果表明利用深度学习可以对野生动物的行为进行分类，提供对整个群体集体行为的非侵入性洞察。

May, 2024

ChimpACT: 了解黑猩猩行为的纵向数据集

理解非人类灵长类动物的行为对于改善动物福利，建模社会行为以及获取独特的人类和谱系共享行为的洞见至关重要。然而，非人类灵长类动物行为数据集的缺乏阻碍了对灵长类动物社会互动的深入探索，给研究我们最亲近的近亲带来了挑战。为了解决这些限制，我们提出了 ChimpACT，这是一个全面的数据集，用于量化社会群体中黑猩猩的纵向行为和社会关系。ChimpACT 涵盖了 2015 年到 2018 年，包括德国莱比锡动物园的 20 多只黑猩猩群体的视频，特别关注一个年轻雄性 Azibo 的发展轨迹。ChimpACT 非常全面且具有挑战性，包括 163 个视频，累积包含 16 万 5000 帧，每帧都进行了检测、识别、姿势估计和细粒度的时空行为标注。我们在 ChimpACT 上对三个任务进行了代表性方法的评估：(i) 跟踪和识别，(ii) 姿势估计，以及 (iii) 黑猩猩的时空动作检测。我们的实验表明，ChimpACT 为设计新方法和调整现有方法解决应用于黑猩猩群体的基本计算机视觉任务（如检测、姿势估计和行为分析）提供了充足的机会，从而最终加深我们对非人类灵长类动物的沟通和社会性的理解。

Oct, 2023