利用语言模态的指导改进视觉异常检测

Oct, 2023

利用语言模态的指导改进视觉异常检测

Improving Vision Anomaly Detection with the Guidance of Language Modality

Dong Chen, Kaihang Pan, Guoming Wang, Yueting Zhuang, Siliang Tang

TL;DR该论文提出了跨模态引导（CMG）方法，通过跨模态熵减少（CMER）和跨模态线性嵌入（CMLE）来解决视觉模态中多余信息和稀疏空间的问题，实验证明该方法优于仅使用图像的基准方法 16.81%。

Abstract

Recent years have seen a surge of interest in anomaly detection for tackling industrial defect detection, event detection, etc. However, existing unsupervised anomaly detectors, particularly those for the vision modalit

anomaly detection vision modality multimodal cross-modal guidance latent space

发现论文，激发创造

使用语言诊断和修复视觉模型

我们提出利用多模态嵌入空间的自然语言特点，在不需要视觉数据的情况下诊断视觉分类器，发现高错误数据片段、标识有影响力的属性并进一步纠正不良模型行为

Feb, 2023

多模态异常检测与推理的自定义视觉语言基础模型

本研究旨在开发一种适用于多个场景的通用异常检测模型，通过将视觉 - 语言基础模型定制为异常检测器和推理器，并引入多模态提示策略，将领域专家的知识作为条件来指导模型，在多模态输入表示中实现多模态异常检测和推理，从而提高异常检测性能。结果表明，该定制模型能够在不同的数据模态（如图像和点云）中检测异常，尤其适用于多物体场景和时间数据。

Mar, 2024

CL2CM: 通过跨语言知识转移提升跨语言跨模态检索

跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架，使用跨语言转移改善了视觉和目标语言之间的对齐，可在跨模态网络中为可靠全面的语义对应（知识）提供优势，并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。

Dec, 2023

通过跨模态 CutMix 进行非成对视觉 - 语言预训练的 VLMixer

本文提出一种名为跨模态 CutMix（CMC）的数据增强方法，用于隐式的跨模态对齐学习，在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时，该论文还提出了一种新的无对齐图像文本预训练方法，名为 VLMixer，通过将 CMC 与对比学习相结合，可以更好地对齐不同视图中的实例。实验结果表明，VLMixer 可以超过以前的无对齐 VLP 方法。

Jun, 2022

基于人工提取的无人机驱动的异常检测：元引导提示策略中的提示优化

我们提出了一种无需人工干预的基于提示的异常检测框架，通过数据驱动方法优化学习提示，解决了训练阶段缺乏异常样本的问题，并通过合理调整梯度方向和局部注意力机制，实现了像素级异常分割的高准确度。

Jun, 2024

Myriad: 應用視覺專家進行工業異常檢測之大型多模態模型

提出了一种应用视觉专家进行工业异常检测的新型大型多模型（Myriad）模型，通过使用视觉专家的先验知识嵌入到大型语言模型中，实现了明确的异常检测和高质量的异常描述。

Oct, 2023

基于视觉引导的生成式预训练语言模型进行多模态抽象摘要

该研究提出了一种有效的方法，使用基于注意力的添加层来整合视觉信息，构建了引导语言模型进行视频摘要的模型，通过模态融合的方法，使该模型在 How2 数据集上的 ROUGE-1、ROUGE-2 和 ROUGE-L 比之前的最新研究提高了 5.7, 5.3 和 5.1 分数，其中 83.6% 的提高来自于视觉引导方法，为多模态抽象摘要任务提供了有效的方法。

Sep, 2021

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

CoVLR：协调跨模态一致性和内部模态结构的视觉语言检索

本论文提出了一种名为 Coordinated Vision Language Retrieval (CoVLR) 的新方法，利用 meta-optimization 来协调交叉模态对齐和单模态群集维护，从而同时确保交叉模态一致性和单模态结构，实验结果表明 CoVLR 方法能够提高单模态检索准确性，同时保留跨模态检索能力。

Apr, 2023

照亮阴影：用概念引导的视觉语言模型增强长尾实体引地

Multi-Modal Knowledge Graphs (MMKGs) have proven valuable for various downstream tasks. To address the challenge of building large-scale MMKGs with mismatched images, this paper introduces COG, a framework that enhances vision-language models with concept guidance, effectively identifying image-text pairs of long-tailed entities and offering flexibility and explainability.

Jun, 2024