认知视觉语言映射器：通过增强视觉知识对齐推进多模态理解

Feb, 2024

认知视觉语言映射器：通过增强视觉知识对齐推进多模态理解

Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment

Yunxin Li, Xinyu Chen, Baotian Hu, Haoyuan Shi, Min Zhang

TL;DR在当前大型多模态模型的研究中，我们评估和重新思考了广泛使用的视觉语言投射方法（如 Q-former 或 MLP），发现它们侧重于图像 - 文本描述的对齐，但忽略了视觉知识维度的对齐，即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知识对齐来改进大型多模态模型，特别关注知识型视觉问题回答。为此，我们提出了一个认知视觉语言映射器（CVLM），包含一个预训练的视觉知识对齐器（VKA）和一个用于多模态指令调整阶段的细粒度知识适配器（FKA）。我们通过在知识型视觉问题回答基准测试上进行广泛实验证明，CVLM 显著提高了 LMM 在知识型视觉问题回答上的性能（平均提升 5%），消融研究也验证了 VKA 和 FKA 的有效性。

Abstract

Evaluating and Rethinking the current landscape of large multimodal models (LMMs), we observe that widely-used visual-language projection approaches (e.g., Q-former or MLP) focus on the alignment of image-text de

large multimodal models visual-language projection approaches visual knowledge-dimension alignment knowledge-based visual question answering cognitive visual-language mapper

发现论文，激发创造

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024

KNVQA：用于评估基于知识的视觉问答的基准

该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Nov, 2023

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

学习视觉知识记忆网络用于视觉问答

本文提出了一种基于 VKMN 的视觉知识存储网络，通过 End-to-End 的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题，并在 VQA 1.0 和 VQA 2.0 基准测试中表现出显著的性能优势，特别是在涉及知识推理的问题方面。

Jun, 2018

走向自顶向下推理：可解释的多代理视觉问答方法

本论文提出了一个可解释的多智能体协作框架，通过利用在广泛语料库上训练的大型语言模型中嵌入的知识，以人类认知为灵感，使用三个智能体，即探索者、回答者和整合者，进行自顶向下推理过程，从而明确地构建特定图像场景的多视图知识库，以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估，并通过全面的实验结果证明了其广泛的适用性和可解释性。

Nov, 2023

发现差距：面向视觉问答的知识库推理

我们分析了基于知识的视觉问答，研究问题是：1）我们能通过显式有监督检索相关知识解决知识库 - 视觉问答问题吗？2）任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何？3）预训练语言模型的隐式知识足够用于知识库 - 视觉问答吗？结果表明，将特定任务和预训练语言模型与显式的外部和视觉知识检索模型相结合可以取得良好效果。预训练语言模型在 1 跳推理方面更强，但在 2 跳推理方面不如我们精调的神经网络模型，尽管两种模型都可以获取两种信息的相关信息。此外，我们观察到预训练语言模型在与知识库相关的问题上优于神经网络模型，这证实了预训练语言模型中隐式知识的有效性，然而，它们并不能代替对外部知识的需求。

Apr, 2024

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

利用知识注入学习提高多模态营销中的上下文一致性

通过将常识知识图与大型视觉语言模型结合，改进了多模态营销活动的效果预测，并实现了对可能具有说服力的多模态活动的早期检测以及对营销理论的评估和增强。

Feb, 2024