利用语言模态的指导改进视觉异常检测
本研究旨在开发一种适用于多个场景的通用异常检测模型,通过将视觉 - 语言基础模型定制为异常检测器和推理器,并引入多模态提示策略,将领域专家的知识作为条件来指导模型,在多模态输入表示中实现多模态异常检测和推理,从而提高异常检测性能。结果表明,该定制模型能够在不同的数据模态(如图像和点云)中检测异常,尤其适用于多物体场景和时间数据。
Mar, 2024
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023
本文提出一种名为跨模态 CutMix(CMC)的数据增强方法,用于隐式的跨模态对齐学习,在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时,该论文还提出了一种新的无对齐图像文本预训练方法,名为 VLMixer,通过将 CMC 与对比学习相结合,可以更好地对齐不同视图中的实例。实验结果表明,VLMixer 可以超过以前的无对齐 VLP 方法。
Jun, 2022
我们提出了一种无需人工干预的基于提示的异常检测框架,通过数据驱动方法优化学习提示,解决了训练阶段缺乏异常样本的问题,并通过合理调整梯度方向和局部注意力机制,实现了像素级异常分割的高准确度。
Jun, 2024
提出了一种应用视觉专家进行工业异常检测的新型大型多模型(Myriad)模型,通过使用视觉专家的先验知识嵌入到大型语言模型中,实现了明确的异常检测和高质量的异常描述。
Oct, 2023
该研究提出了一种有效的方法,使用基于注意力的添加层来整合视觉信息,构建了引导语言模型进行视频摘要的模型,通过模态融合的方法,使该模型在 How2 数据集上的 ROUGE-1、ROUGE-2 和 ROUGE-L 比之前的最新研究提高了 5.7, 5.3 和 5.1 分数,其中 83.6% 的提高来自于视觉引导方法,为多模态抽象摘要任务提供了有效的方法。
Sep, 2021
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
本论文提出了一种名为 Coordinated Vision Language Retrieval (CoVLR) 的新方法,利用 meta-optimization 来协调交叉模态对齐和单模态群集维护,从而同时确保交叉模态一致性和单模态结构,实验结果表明 CoVLR 方法能够提高单模态检索准确性,同时保留跨模态检索能力。
Apr, 2023
Multi-Modal Knowledge Graphs (MMKGs) have proven valuable for various downstream tasks. To address the challenge of building large-scale MMKGs with mismatched images, this paper introduces COG, a framework that enhances vision-language models with concept guidance, effectively identifying image-text pairs of long-tailed entities and offering flexibility and explainability.
Jun, 2024