VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

Mar, 2024

VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation

Hao Wang, Jiayou Qin, Ashish Bastola, Xiwen Chen, John Suchanek...

TL;DR利用 Yolo-World 目标检测模型和专门的提示，本文探讨了大型语言模型（LLMs）在零样本异常检测中的潜力，实现了识别摄像头捕获帧中的异常并生成简洁的音频描述，从而在复杂环境中协助安全的视觉导航。此外，本文还探讨了不同提示组件的性能贡献，并为视觉辅助性的未来改进提供了展望，并为 LLMs 在视频异常检测和视觉语言理解方面铺平了道路。

Abstract

This paper explores the potential of Large Language Models(LLMs) in zero-shot anomaly detection for safe visual navigation. With the assistance of the state-of-the-art real-time open-world object detection model

large language models (llms)zero-shot anomaly detection safe visual navigation open-world object detection dynamic scenario switch

发现论文，激发创造

利用 YOLO-World 和 GPT-4V LMMs 在无人机图像中实现零样本人员检测和动作识别

本文探讨了零样本大型多模态模型（Large Multimodal Models，LMMs）在无人机感知领域的潜力以及其在人体检测和动作识别任务中的应用。研究结果表明，YOLO-World 在检测性能上表现良好，而 GPT-4V 在准确分类动作类别上有困难，但在过滤不需要的区域提案和提供场景的总体描述方面取得了有希望的结果。该研究为利用 LMMs 进行无人机感知奠定了基础，并为进一步探索该领域提供了初始步骤。

Apr, 2024

LLM 在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法 ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像 - 文本对齐。与最先进的零射击视觉异常检测方法相比，在 MVTec AD 和 VisA 数据集上，ALFA 取得了显著的 12.1% 和 8.9% 的性能改进。

Apr, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024

视觉语言基础模型中的运动预测中的难例检测

该研究探讨了使用 Vision-Language Foundation Models（VLMs）在自动驾驶中检测困难案例的潜力，并展示了 VLMs 在交通参与者运动预测中检测困难案例的能力。通过 VLMs 检测困难案例，进一步提高了现有运动预测流程的训练效率。

May, 2024

基于在线视觉语言映射的真实世界视觉语言导航

在本文中，我们提出了一个在真实世界中解决 VLN 任务的新型导航框架，该框架利用强大的基础模型，并包括四个关键组成部分：(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器，(2) 构建实时的视觉 - 语言地图以保持对未知环境的空间和语义理解的在线视觉 - 语言映射器，(3) 基于语言索引的定位器，将每个宏操作描述重新映射到地图上的路径点位置，以及 (4) 基于 DD-PPO 的本地控制器，用于预测动作。我们在未知的实验室环境中使用 Interbotix LoCoBot WX250 对提出的流程进行了评估，而无需进行任何细微调整，在真实世界中，我们的流程明显优于 SOTA VLN 基线。

Oct, 2023

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

Co-NavGPT: 多机器人协作视觉语义导航

提出了一种创新性的框架 Co-NavGPT，将大型语言模型（LLMs）作为多机器人合作视觉目标导航的全局规划器，通过编码探索环境数据，为每个机器人分配探索边界，实现高效的目标搜索，实验结果表明 Co-NavGPT 在成功率和效率方面优于现有模型，展示了 LLMs 在多机器人协作领域的巨大潜力。

Oct, 2023

AnomalyGPT：利用大型视觉 - 语言模型检测工业异常

利用大型视觉语言模型（LVLMs）解决工业异常检测（IAD）问题的关键在于提出了一种基于 LVLM 的新型 IAD 方法 AnomalyGPT，通过模拟异常图像以及为每个图像生成对应的文本描述来生成训练数据，并利用图像解码器提供细粒度语义和设计，通过启示式嵌入 fine-tune LVLM，消除了手动阈值调整的需求，直接评估异常的存在和位置，在 MVTec-AD 数据集上实现了 86.1％的准确率，94.1％的图像级 AUC 和 95.3％的像素级 AUC。

Aug, 2023

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023