M2ConceptBase: 一个细粒度的对齐多模态概念知识库
借助大型多模态模型(LMMs),本文提出了一种新颖的解释框架,通过字典学习的方法应用于令牌的表示,准确地解释了多模态概念,并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。
Jun, 2024
该论文的研究旨在使用一组集成的视觉区域和相应的文本概念来表示图像,从而反映出特定的语义。为此,研究人员构建了互相迭代注意力(MIA)模块,并将该方法在图像字幕和视觉问答等任务中得到了验证。结果表明,该方法对于图像相关应用具有广泛的泛化能力,并且能将基线模型的性能提升到了一个新的水平。
May, 2019
提出了一种利用多模态知识图 (MMKGs) 进行多模态推理的方法 (MR-MKG),通过利用多模态知识图 (MMKGs) 跨模态地学习丰富的语义知识,显著提高了大型语言模型 (LLMs) 在多模态推理中的能力。通过在仅使用 LLM 参数的 2.25% 进行训练,MR-MKG 在多模态问答和多模态类比推理任务上取得了优越的性能,胜过了之前的最新模型。
Jun, 2024
MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.
Apr, 2024
通过松弛 Conceptual Captions 3M (CC3M) [Sharma et al. 2018] 数据收集流程,我们引入了 Conceptual 12M(CC12M)数据集,并通过针对长尾视觉识别的多个下游任务基准测试其有效性,结果表明增加预训练数据规模会使视觉和语言任务更加有效。
Feb, 2021
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
Multi-Modal Knowledge Graphs (MMKGs) have proven valuable for various downstream tasks. To address the challenge of building large-scale MMKGs with mismatched images, this paper introduces COG, a framework that enhances vision-language models with concept guidance, effectively identifying image-text pairs of long-tailed entities and offering flexibility and explainability.
Jun, 2024
当探索人工通用智能(AGI)的发展时,大型多模态模型(LMMs)在处理多个图像输入的信息时面临两个问题:细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面:首先,图像与图像匹配(评估 LMMs 是否能够有效推理和配对相关图像),其次,多图像与文本匹配(评估 LMMs 是否能够准确捕捉和总结详细的图像信息)。我们对一系列开源和闭源的大型模型进行评估,包括 GPT-4V,Gemini,OpenFlamingo 和 MMICL。为了增强模型性能,我们还基于多输入多模态模型开发了一种对比的思维链(CoCoT)启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性,然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。
Jan, 2024
为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力,该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD),作者评估了对象、属性、样式及四种组合性维度,研究发现概念学习和保持组合性之间存在权衡。
Jun, 2023
基于知识的视觉问答(KVQA)对于利用外部知识,如知识图谱(KGs)来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法(MAIL),用于 KVQA,它巧妙地利用多模态知识进行图像理解和知识推理,并在两个基准数据集上的实验证明了 MAIL 的卓越性能。
Feb, 2024