利用基于聊天的大型视觉语言模型进行多模式场景外检测

Jan, 2024

利用基于聊天的大型视觉语言模型进行多模式场景外检测

Leveraging Chat-Based Large Vision Language Models for Multimodal Out-Of-Context Detection

Fatma Shalabi, Hichem Felouat, Huy H. Nguyen, Isao Echizen

TL;DR证明了在多模态的背景下，通过对数据集进行微调，可以显著提高大视觉 - 语言模型在超文本检测任务中的性能。

Abstract

Out-of-context (OOC) detection is a challenging task involving identifying images and texts that are irrelevant to the context in which they are presented. large vision-language models (LVLMs) are effective at various tasks, including image classification and text generation. However,

out-of-context detection large vision-language models multimodal ooc detection tasks fine-tuning newsclippings dataset

发现论文，激发创造

探索用于多模态离域检测的大型语言模型

应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能，通过从每个图像提取视觉对象充分利用前述世界知识，充分实验证明本方法始终优于现有技术。

Oct, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

SNIFFER: 可解释的跨语境误信息识别的多模态大型语言模型

SNIFFER 是一种特别针对超文本误导检测和解释的新型多模态大型语言模型，通过在 InstructBLIP 上进行两阶段的指令调整，不仅能够检测文字和图像之间的不一致性，还可以利用外部知识进行上下文验证，实验证明 SNIFFER 的检测准确性超过了原始的 MLLM 超过 40%，并且在解释能力方面也优于最先进的方法。

Mar, 2024

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

机器视觉治疗：多模态大型语言模型通过去噪上下文学习增强视觉鲁棒性

我们提出了一种有效利用 MLLMs 进行机器视觉治疗的方法，通过与去噪标签进行微调，以无监督的方式提高学习模型的性能，并通过提出的 DICL 策略解决了 MLLMs 与视觉任务的兼容性问题。

Dec, 2023

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

利用视觉语言表示探究外域检测

该研究提出 Maximum Concept Matching（MCM）这一零样本的多模态算法来识别异常数据，利用视觉特征与文本概念进行对齐。研究发现 MCM 比单模态算法在效果上更为优秀，特别是结合视觉 - 语言特征时。

Nov, 2022

自动驾驶场景中基于语言增强的潜在表示的异常检测

利用多模态模型 CLIP 编码的图像和文本表示的余弦相似度作为一种新的表示，以改善用于视觉异常检测的潜在编码的透明性和可控性。通过与仅能产生用户无意义的潜在表示的现有预训练编码器进行比较，我们的实验表明，基于语言的潜在表示比传统视觉编码器的表示更好，并在与标准表示相结合时有助于提高检测性能。

May, 2024

LLM 使用提示工程进行 cheap-fake 检测

提出了一种新的基于 COSMOS 结构和 GPT3.5 模型的学习方法，用于检测新闻报道中真实照片与不一致图注之间的语境误用，并且具有很大的潜力在廉价伪造检测性能方面取得显著的进步。

Jun, 2023

新闻中检测上下文不相关的图像 - 标题对的一种违反常识的方法

利用生成图像模型检测新闻中图像与标题对的脱离语境使用，为廉价伪造检测领域的进一步研究提供新方法和数据集，通过定性和定量分析评估图像生成模型及图像相似度计算方法的性能。

Aug, 2023