KNVQA:用于评估基于知识的视觉问答的基准
我们介绍了 OmniMedVQA,一个来自 75 个不同医疗数据集的医疗视觉问答基准,其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也表现出劣于通用领域模型的性能,这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。
Feb, 2024
借助大型语言模型的上下文学习能力,我们提出了一个更好的 VQA 评估指标,该指标在多个 VQA 模型和基准测试中与人类判断更好地相关,希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。
Oct, 2023
基于知识的视觉问答(KVQA)对于利用外部知识,如知识图谱(KGs)来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法(MAIL),用于 KVQA,它巧妙地利用多模态知识进行图像理解和知识推理,并在两个基准数据集上的实验证明了 MAIL 的卓越性能。
Feb, 2024
在当前大型多模态模型的研究中,我们评估和重新思考了广泛使用的视觉语言投射方法(如 Q-former 或 MLP),发现它们侧重于图像 - 文本描述的对齐,但忽略了视觉知识维度的对齐,即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知识对齐来改进大型多模态模型,特别关注知识型视觉问题回答。为此,我们提出了一个认知视觉语言映射器(CVLM),包含一个预训练的视觉知识对齐器(VKA)和一个用于多模态指令调整阶段的细粒度知识适配器(FKA)。我们通过在知识型视觉问题回答基准测试上进行广泛实验证明,CVLM 显著提高了 LMM 在知识型视觉问题回答上的性能(平均提升 5%),消融研究也验证了 VKA 和 FKA 的有效性。
Feb, 2024
通过提出创新的评估方法并修正现有的视觉问答基准,我们的研究旨在推进我们对文本生成视觉语言模型能力的理解,提出了一种基于著名视觉分类数据集的新型视觉问答基准,可以对文本生成视觉语言模型进行细粒度评估,并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究,基于这项研究,我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型,并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
Feb, 2024
构建了 CVQA,一个新的多元文化多语言视觉问答基准,覆盖了 28 个国家的文化驱动图像和问题,包括 26 种语言和 11 种文字,共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。
Jun, 2024
基于多模态知识图,本研究构建了一个新的基准评估 $ extbf {KEBench}$,并扩展了一种新的评估指标(可移植性),通过对五个大型视觉语言模型进行不同编辑方法的实验,深入分析这些方法对模型的影响,揭示了这些方法的优点和不足,为未来的研究提供了启示。
Mar, 2024
近期,大型多模态模型在视觉任务中表现出前所未有的精确性,尤其对于帮助盲人或视障人士提供准确答案至关重要,而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析,研究了两个回答能力基准测试中的 VQA,结果显示,对于上下文学习来说,视觉模型的可能性得分比其纯文本模型更为校准,尽管基于采样的方法通常更优,但没有明确的赢家。我们提出了 Avg BLEU,这是一种结合了两种模式的采样和可能性方法优点的校准评分。
Jun, 2024
提出了 GAOKAO-MM,这是一个基于中国高考的多模态基准,评估了 10 个大型视觉语言模型 (LVLMs),发现它们的准确率都低于 50%,排名前三的是 GPT-4-Vison(48.1%),Qwen-VL-Plus(41.2%)和 Gemini-Pro-Vision(35.1%)。多维分析结果表明 LVLMs 在人工通用智能 (AGI) 方面有适度的距离,并为多语言 LVLMs 的发展提供了启示。
Feb, 2024
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022