评估视觉语言模型的图像评论能力

Feb, 2024

评估视觉语言模型的图像评论能力

Evaluating Image Review Ability of Vision Language Models

Shigeki Saito, Kazuki Hayashi, Yusuke Ide, Yusuke Sakai, Kazuma Onishi...

TL;DR使用大规模视觉语言模型（LVLMs）为图像生成评价文本。通过基于排名相关分析的评估方法，验证了 LVLMs 在区分高质量和次标准图像评价中的优越性。

Abstract

large-scale vision language models (lvlms) are language models that are capable of processing images and text inputs by a single model. This paper explores the use of →

large-scale vision language models lvlms review texts evaluation method image review ability

发现论文，激发创造

通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

TouchStone: 通过语言模型评估视觉 - 语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

RelationVLM: 构建大型视觉 - 语言模型以理解视觉关系

RelationVLM 是一种大型视觉语言模型，通过多阶段关系感知训练方案和相应的数据配置策略，使其具备理解多个图像或视频内的多个层次和类型关系的能力，该工作促进了 LVLM 的发展，使其能够支持更广泛的人工通用智能应用。

Mar, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

语言模型的视觉检查

文中系统评估了大型语言模型（LLMs）生成和识别各种复杂视觉概念的能力，并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明，通过精确地建模字符串，语言模型可以在视觉世界的多个方面展现出作用，同时使用文本模型生成的图像进行的自监督视觉表示学习实验突显了仅借助 LLMs 能够训练具备语义评估能力的视觉模型的潜力。

Jan, 2024

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

大规模视觉语言模型中的艺术作品解释

大规模视觉语言模型（LVLMs）可以从图像和说明中输出文本，展示出在文本生成和理解方面的先进能力。然而，LVLMs 在理解解释图像所需的知识、各种知识之间的复杂关系以及如何将这些理解整合到解释中的能力尚未得到明确。针对这个问题，我们提出了一个新任务：艺术品解释生成任务，同时提供其评估数据集和用于定量评估对艺术品知识的理解和利用的度量标准。此任务适用于基于图像描述，基于这样一个前提：LVLMs 应具有关于艺术品的预先存在的知识，艺术品往往是被广泛认可并有记录信息的主题。任务由两个部分组成：从图像和艺术品标题生成解释，以及仅使用图像生成解释，从而评估 LVLMs 基于语言和基于视觉的知识。与此同时，我们还发布了一个训练数据集，使 LVLMs 可以学习包含有关艺术品的解释。我们的发现表明，LVLMs 不仅在整合语言和视觉信息方面存在困难，而且在仅从图像中获取知识方面存在更明显的限制。数据集（ExpArt=Explain Artworks）可在以下链接找到：this https URL。

Feb, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于 LLM 中的世界知识。2）在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题，我们提出了 MMStar，这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM，以评估它们的多模态能力，并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024