Mar, 2024

VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

TL;DR利用 Yolo-World 目标检测模型和专门的提示,本文探讨了大型语言模型(LLMs)在零样本异常检测中的潜力,实现了识别摄像头捕获帧中的异常并生成简洁的音频描述,从而在复杂环境中协助安全的视觉导航。此外,本文还探讨了不同提示组件的性能贡献,并为视觉辅助性的未来改进提供了展望,并为 LLMs 在视频异常检测和视觉语言理解方面铺平了道路。