评估视觉语言模型的图像评论能力
该研究评估了大型视觉语言模型(LVLMs)区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型,但存在向右的偏差,并且相对于人类表现出明显较差。为了深入研究这些发现,我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成,从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准,我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势,并推进了基准构建技术,提供了一种可扩展和自动化的人工智能模型评估方法。
Jun, 2024
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
RelationVLM 是一种大型视觉语言模型,通过多阶段关系感知训练方案和相应的数据配置策略,使其具备理解多个图像或视频内的多个层次和类型关系的能力,该工作促进了 LVLM 的发展,使其能够支持更广泛的人工通用智能应用。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
May, 2024
文中系统评估了大型语言模型(LLMs)生成和识别各种复杂视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明,通过精确地建模字符串,语言模型可以在视觉世界的多个方面展现出作用,同时使用文本模型生成的图像进行的自监督视觉表示学习实验突显了仅借助 LLMs 能够训练具备语义评估能力的视觉模型的潜力。
Jan, 2024
利用大型视觉语言模型来评估生成图像与输入文本之间的对齐,在此基础上,通过细调扩散模型来提升其对齐能力。实验证明,该方法显著改善了构图图像生成中的文本 - 图像对齐,特别在物体数量、属性绑定、空间关系和审美质量方面。
Oct, 2023
大规模视觉语言模型(LVLMs)可以从图像和说明中输出文本,展示出在文本生成和理解方面的先进能力。然而,LVLMs 在理解解释图像所需的知识、各种知识之间的复杂关系以及如何将这些理解整合到解释中的能力尚未得到明确。针对这个问题,我们提出了一个新任务:艺术品解释生成任务,同时提供其评估数据集和用于定量评估对艺术品知识的理解和利用的度量标准。此任务适用于基于图像描述,基于这样一个前提:LVLMs 应具有关于艺术品的预先存在的知识,艺术品往往是被广泛认可并有记录信息的主题。任务由两个部分组成:从图像和艺术品标题生成解释,以及仅使用图像生成解释,从而评估 LVLMs 基于语言和基于视觉的知识。与此同时,我们还发布了一个训练数据集,使 LVLMs 可以学习包含有关艺术品的解释。我们的发现表明,LVLMs 不仅在整合语言和视觉信息方面存在困难,而且在仅从图像中获取知识方面存在更明显的限制。数据集(ExpArt=Explain Artworks)可在以下链接找到:this https URL。
Feb, 2024
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于 LLM 中的世界知识。2)在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题,我们提出了 MMStar,这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM,以评估它们的多模态能力,并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024