通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

Nov, 2023

通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V) Takes the Lead

Yunkang Cao, Xiaohao Xu, Chen Sun, Xiaonan Huang, Weiming Shen

TL;DR使用 GPT-4V 模型进行多模态异态检测任务，包括图像、视频、点云和时间序列数据，在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中，通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中，GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式，从而能够准确区分正常和异常实例，展现出潜在的通用异态检测能力，为异态检测开辟了新的方法。

Abstract

anomaly detection is a crucial task across different domains and data types. However, existing anomaly detection models are often designed for specific domains and modalities. This study explores the use of

anomaly detection gpt-4v multi-modality fine-grained semantic patterns generic anomaly detection

发现论文，激发创造

探索面向 VQA 的 GPT-4V 在零样本异常检测中的接地潜力

GPT-4V-AD, a VQA-oriented framework utilizing the Large Multimodal Model (LMM) GPT-4V, shows promise in the zero-shot Anomaly Detection (AD) task, achieving certain results but with room for improvement compared to state-of-the-art methods.

Nov, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

AnomalyGPT：利用大型视觉 - 语言模型检测工业异常

利用大型视觉语言模型（LVLMs）解决工业异常检测（IAD）问题的关键在于提出了一种基于 LVLM 的新型 IAD 方法 AnomalyGPT，通过模拟异常图像以及为每个图像生成对应的文本描述来生成训练数据，并利用图像解码器提供细粒度语义和设计，通过启示式嵌入 fine-tune LVLM，消除了手动阈值调整的需求，直接评估异常的存在和位置，在 MVTec-AD 数据集上实现了 86.1％的准确率，94.1％的图像级 AUC 和 95.3％的像素级 AUC。

Aug, 2023

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

GPT4Vis：GPT-4 能为零样本视觉识别做什么？

本研究对 GPT-4 在零样本视觉识别任务中的语言和视觉能力进行了评估，发现利用 GPT-4 生成丰富的文本描述明显提高了零样本识别性能，并且在视觉熟练度方面，GPT-4V 在 16 个基准数据集中表现介于 OpenAI-CLIP 的 ViT-L 和 EVA-CLIP 的 ViT-E 之间。

Nov, 2023

GPT-4V 在生物医学成像中的整体评价

本研究介绍了针对生物医学图像分析的 GPT-4V 的大规模评估，评估了 GPT-4V 在医学成像领域的表现和局限性，包括放射学、肿瘤学、眼科学、病理学等 16 个医学成像类别的任务，结果显示 GPT-4V 在成像模态和解剖定位方面表现出色，但在疾病诊断和定位方面存在一定困难，而且在生成诊断报告方面表现优异，需要进一步提升和验证才能在临床应用前达到可靠，该研究推动对多模态大语言模型的理解，并指导未来工作在医疗应用方面的发展。

Nov, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

GPT-4V 中的视觉文化意识探索：一项全面的探究

探索 GPT-4V 在视觉理解方面的能力和限制，着重关注文化方面，通过使用 MaRVL 基准数据集进行详细调查，实验证明 GPT-4V 在识别文化概念方面表现出色，但在低资源语言上仍然存在较弱的性能。

Feb, 2024