M2ConceptBase: 一个细粒度的对齐多模态概念知识库

Dec, 2023

M2ConceptBase: 一个细粒度的对齐多模态概念知识库

M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge Base

Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song...

TL;DR通过建立一个多模态概念知识库、提供细粒度对齐以增强图像与概念之间的交互能力，该论文在进行模态间对齐时有效地改善了多模态模型的概念理解和交叉模态对齐能力。

Abstract

Large multi-modal models (LMMs) have demonstrated promising intelligence owing to the rapid development of pre-training techniques. However, their fine-grained cross-modal alignment ability is constrained by the

multi-modal models fine-grained alignment conceptual knowledge base cross-modal alignment ok-vqa task

发现论文，激发创造

基于概念的大规模多模态模型可解释性框架

借助大型多模态模型（LMMs），本文提出了一种新颖的解释框架，通过字典学习的方法应用于令牌的表示，准确地解释了多模态概念，并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。

Jun, 2024

将视觉区域与文本概念对齐以实现语义驱动图像表征

该论文的研究旨在使用一组集成的视觉区域和相应的文本概念来表示图像，从而反映出特定的语义。为此，研究人员构建了互相迭代注意力（MIA）模块，并将该方法在图像字幕和视觉问答等任务中得到了验证。结果表明，该方法对于图像相关应用具有广泛的泛化能力，并且能将基线模型的性能提升到了一个新的水平。

May, 2019

多模态知识图谱下的多模态推理

提出了一种利用多模态知识图 (MMKGs) 进行多模态推理的方法 (MR-MKG)，通过利用多模态知识图 (MMKGs) 跨模态地学习丰富的语义知识，显著提高了大型语言模型 (LLMs) 在多模态推理中的能力。通过在仅使用 LLM 参数的 2.25% 进行训练，MR-MKG 在多模态问答和多模态类比推理任务上取得了优越的性能，胜过了之前的最新模型。

Jun, 2024

MC$^2$：定制多概念生成的多概念引导

MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.

Apr, 2024

概念 12M：推动网页规模的图像文本预训练，以识别长尾视觉概念

通过松弛 Conceptual Captions 3M (CC3M) [Sharma et al. 2018] 数据收集流程，我们引入了 Conceptual 12M（CC12M）数据集，并通过针对长尾视觉识别的多个下游任务基准测试其有效性，结果表明增加预训练数据规模会使视觉和语言任务更加有效。

Feb, 2021

基于场景文本的细粒度图像分类与检索的多模态推理图

本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理，在 Con-Text 和 Drink Bottle 数据集中，在细粒度图像分类和图像检索任务中显著优于之前的最新技术。

Sep, 2020

照亮阴影：用概念引导的视觉语言模型增强长尾实体引地

Multi-Modal Knowledge Graphs (MMKGs) have proven valuable for various downstream tasks. To address the challenge of building large-scale MMKGs with mismatched images, this paper introduces COG, a framework that enhances vision-language models with concept guidance, effectively identifying image-text pairs of long-tailed entities and offering flexibility and explainability.

Jun, 2024

CoCoT: 大型多模型多图像输入的对比思维链接引导

当探索人工通用智能（AGI）的发展时，大型多模态模型（LMMs）在处理多个图像输入的信息时面临两个问题：细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面：首先，图像与图像匹配（评估 LMMs 是否能够有效推理和配对相关图像），其次，多图像与文本匹配（评估 LMMs 是否能够准确捕捉和总结详细的图像信息）。我们对一系列开源和闭源的大型模型进行评估，包括 GPT-4V，Gemini，OpenFlamingo 和 MMICL。为了增强模型性能，我们还基于多输入多模态模型开发了一种对比的思维链（CoCoT）启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性，然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。

Jan, 2024

ConceptBed: 评估文本到图像扩散模型的概念学习能力

为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力，该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD)，作者评估了对象、属性、样式及四种组合性维度，研究发现概念学习和保持组合性之间存在权衡。

Jun, 2023

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024