Apr, 2024

ChimpVLM:基于行为摘要进行增强的黑猩猩行为识别

TL;DR我们通过为视觉结构提供对详细物种行为进行描述的文本嵌入,展示出可以增强从摄像陷阱中理解黑猩猩行为的能力。具体而言,我们提出了一种视觉 - 语言模型,它通过对直接从摄像陷阱视频中提取的视觉特征进行多模态解码,处理代表行为的查询标记并输出类别预测。我们使用标准化的黑猩猩行为编码作为查询标记的初始值,而不是使用随机或基于名称的初始化。此外,我们还探索了使用在已知行为模式的文本语料库上进行微调的遮蔽语言模型初始化查询标记的效果。我们在 PanAf500 和 PanAf20K 数据集上评估了我们的系统,并证明了我们的多模态解码方法和查询初始化策略在多类别和多标签识别任务上的性能优势。结果和消融分析支持性能的改进。我们在 PanAf500 上的 top-1 准确率上实现了优于视觉和视觉 - 语言模型 6.34%的最先进性能,以及在 PanAf20K 上的总体(+ 1.1%)和尾类(+ 2.26%)均值平均精度。我们分享完整的源代码和网络权重,以便能够完全复现结果并进行轻松使用。