Apr, 2024

利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

TL;DR本文探讨了零样本大型多模态模型(Large Multimodal Models,LMMs)在无人机感知领域的潜力以及其在人体检测和动作识别任务中的应用。研究结果表明,YOLO-World 在检测性能上表现良好,而 GPT-4V 在准确分类动作类别上有困难,但在过滤不需要的区域提案和提供场景的总体描述方面取得了有希望的结果。该研究为利用 LMMs 进行无人机感知奠定了基础,并为进一步探索该领域提供了初始步骤。