利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

Apr, 2024

利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

Leveraging YOLO-World and GPT-4V LMMs for Zero-Shot Person Detection and Action Recognition in Drone Imagery

Christian Limberg, Artur Gonçalves, Bastien Rigault, Helmut Prendinger

TL;DR本文探讨了零样本大型多模态模型（Large Multimodal Models，LMMs）在无人机感知领域的潜力以及其在人体检测和动作识别任务中的应用。研究结果表明，YOLO-World 在检测性能上表现良好，而 GPT-4V 在准确分类动作类别上有困难，但在过滤不需要的区域提案和提供场景的总体描述方面取得了有希望的结果。该研究为利用 LMMs 进行无人机感知奠定了基础，并为进一步探索该领域提供了初始步骤。

Abstract

In this article, we explore the potential of zero-shot Large Multimodal Models (LMMs) in the domain of drone perception. We focus on person detection and →

zero-shot large multimodal models drone perception person detection action recognition gpt-4v

发现论文，激发创造

VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

利用 Yolo-World 目标检测模型和专门的提示，本文探讨了大型语言模型（LLMs）在零样本异常检测中的潜力，实现了识别摄像头捕获帧中的异常并生成简洁的音频描述，从而在复杂环境中协助安全的视觉导航。此外，本文还探讨了不同提示组件的性能贡献，并为视觉辅助性的未来改进提供了展望，并为 LLMs 在视频异常检测和视觉语言理解方面铺平了道路。

Mar, 2024

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

GPT4Ego: 发挥预训练模型潜力的零样本个人行为识别

我们介绍了 GPT4Ego，这是一种简单但非常强大的 Vision-Language Models 框架，设计用于增强视觉和语言之间的概念和描述的精细对齐，通过在自我中心视频中利用丰富的语义和上下文细节，GPT4Ego 在三个大规模自我中心视频基准（EPIC-KITCHENS-100、EGTEA 和 CharadesEgo）上明显优于现有的 Vision-Language Models（分别提升了 33.2%、39.6% 和 31.5%）。

Jan, 2024

GPT-4V 掌控方向：对行人行为预测的承诺和挑战评估

GPT-4V 在自动驾驶中利用公开可用的数据集 JAAD、PIE 和 WiDEVIEW 进行行人行为预测的评估，定量和定性评估证明了 GPT-4V 在零 - shot 行人行为预测和自动驾驶中的驾驶场景理解能力，但仍不及传统领域特定模型的最新成果，存在小行人和运动车辆处理困难等限制，需要进一步研究和发展。

Nov, 2023

拓展界限：利用大型多模态模型探索零样本物体分类

该研究论文以大型多模型为主题，探索了通过特定数据集设计的提示词，使用 LMMs 来执行图像分类任务的功效，并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析，实验结果表明模型在 MNIST，Cats Vs. Dogs，Hymnoptera（Ants Vs. Bees）以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能，无需进行任何微调即可达到 85％，100％，77％和 79％的分类准确率。此外，细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进，强调了 LLVAs 的变革潜力和在现实场景中的多样应用。

Dec, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

探究多模态 LLMs 作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力，并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

YOLO-World：实时开放词汇物体检测

YOLO-World is an innovative approach that enhances the You Only Look Once (YOLO) series of detectors with open-vocabulary detection capabilities through vision-language modeling, achieving high efficiency and accuracy in detecting a wide range of objects in a zero-shot manner.

Jan, 2024

语言模型作为零样本轨迹生成器

大型语言模型（LLMs）已经显示出在机器人方面作为高级规划器的潜力，但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设，研究了当 LLM（GPT-4）只有对象检测和分割视觉模型的访问权限时，是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现，比如 “打开瓶盖” 和 “用海绵擦拭盘子”，并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制，首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力，并且它们还可以检测到失败并相应地重新规划轨迹。

Oct, 2023