AnimalFormer：基于行为的精准畜牧农场的多模态视觉框架

CVPRJun, 2024

AnimalFormer：基于行为的精准畜牧农场的多模态视觉框架

AnimalFormer: Multimodal Vision Framework for Behavior-based Precision Livestock Farming

Ahmed Qazi, Taha Razzaq, Asim Iqbal

TL;DR我们介绍了一个多模态视觉框架，用于精确畜牧业，利用 GroundingDINO、HQSAM 和 ViTPose 模型的力量。此集成套件可以从视频数据中进行全面的行为分析，无需侵入性动物标记。GroundingDINO 在家畜周围生成准确的包围框，而 HQSAM 在这些框内分割个体动物。ViTPose 估计关键身体点，便于姿势和运动分析。在包括放牧、奔跑、坐立和行走活动的绵羊数据集上进行演示，我们的框架提取了宝贵的洞察力：活动和放牧模式、互动动力学和详细的姿势评估。该框架适用于各个物种和视频分辨率，为活动检测、计数、健康评估和姿势分析领域的非侵入性畜牧监测带来革命。通过基于数据驱动的行为理解，它给予农场管理以动力，并优化动物福利和生产力。

Abstract

We introduce a multimodal vision framework for precision livestock farming, harnessing the power of GroundingDINO, HQSAM, and ViTPose models. This integrated suite enables comprehensive →

multimodal vision framework precision livestock farming behavioral analytics livestock monitoring ai-powered behavioral understanding

发现论文，激发创造

GPT-4o：多模大型语言模型在仔猪活动理解中的视觉感知表现

动物行为识别研究评估了多模态大型语言模型在畜牧场景视频理解中的视觉感知能力，并验证了其在动物活动识别方面的潜力以及对未来动物行为视频理解研究提供了新的方向和参考。

Jun, 2024

基于实例的 SAM: 为多样化视觉任务构建开放世界模型

引入地面 SAM，使用地面化 DINO 作为开放目标检测器并结合分段任何模型（SAM），实现基于任意文本输入的任何区域的检测和分割，并打开了连接各种视觉模型的大门。

Jan, 2024

超级动物模型：为动物行为分析预训练的即插即用模型

SuperAnimal 是一种新的解决行为分析中 pose 估计问题的 plug-and-play 解决方案，使用深度学习技术自动提取关键点，无需人工标记，并可应用于超过 45 种物种。

Mar, 2022

CattleEyeView: 一种用于智能精准畜牧农业的多任务自上而下视角的牛数据集

介绍了 CattleEyeView 数据集，这是第一个自顶向下视角的多任务牛视频数据集，可用于牛的计数、检测、姿势估计、跟踪和实例分割，以评估模型在每个任务上的性能。

Dec, 2023

面向精准畜牧农业的公共计算机视觉数据集：系统调查

这项研究首次系统调查了公开可获得的牲畜计算机视觉数据集，并讨论了数据集的特征、应用及其对动物福利的影响。同时，还探讨了开发牲畜计算机视觉数据集所面临的挑战和机遇，指出数据质量和标注数量的限制是牲畜精准畜牧中的一个瓶颈。

Jun, 2024

领域适应的细调蒸馏框架用于提升农场监控

本研究提出了一个用于骆驼农场监测的自动化框架，引入了两个关键技术：统一自动注释框架和精调蒸馏框架；统一自动注释方法将 GroundingDINO（GD）和 Segment-Anything-Model（SAM）模型相结合，用于自动标注从监控视频中提取的原始数据集；基于此，精调蒸馏框架通过使用自动标注的数据集对学生模型进行微调，将大型教师模型的知识转移给学生模型；该框架适应特定用例，并能将知识从大型模型传递给小型模型，适用于领域特定应用；借助阿联酋迪拜的 Al-Marmoom 骆驼农场收集的原始数据集和预训练的教师模型 GroundingDINO，精调蒸馏框架生成一种轻量级的可部署模型 YOLOv8；这一框架表现出高性能和计算效率，有助于实现高效的实时目标检测。

Feb, 2024

利用加速度计与 GNSS 数据进行动物行为原位分类的多模态传感器数据融合

本文研究了基于多种传感器数据（包括加速度计和全球定位系统）进行动物行为分类的方法，提出了两种不同的信息融合方法，其中基于后验概率的方法表现更好。实验结果表明，使用多种传感器数据可以明显提高分类性能，特别是针对步行和饮水等重要行为。

Jun, 2022

基于姿态估计和多个运动特征的视频自动检测奶牛跛行

本研究提出了一个利用深度学习图像处理技术提取与蹒跚步态相关的多种运动特征的自动跛行检测系统。使用 T-LEAP 姿势估计模型，从牛行走的视频中提取 9 个关键点的动作，99.6% 的正确关键点。然后利用这些关键点的轨迹计算了六个运动特征：背部姿势测量、头部上下摆动、跟踪距离、步幅长度、站立持续时间和摆动持续时间。结果显示背部姿势测量、头部上下摆动和跟踪距离是最重要的三个特征。研究还表明，合理合并观察者的评分可以提高观察者间的可靠性和一致性。结果显示，包含多种运动特征可以将分类准确性从仅使用一个特征的 76.6% 提高至使用三个最重要特征的 79.9%，并进一步提高至使用所有六个运动特征的 80.1%。

Jan, 2024

视频分割和识别的端到端生成框架

本研究提出了一种基于 Fisher 向量和时间模型相结合的端到端生成式方法来实现人类活动的分割和识别，其适用于各种视频数据集并且优于现有的最先进方法。

Sep, 2015

从上方观察群体动态：一种无人机视频高级目标跟踪框架

利用传统概率方法和语义对象分割的先进技术，通过跟踪鱼群在世界坐标系中的位置和空间扩展，结合视频数据和无人机上的传感器信息，从而实现对鱼群行为的长期分析。

Jun, 2024