多模态大型语言模型对图像质量评估的全面研究

Mar, 2024

多模态大型语言模型对图像质量评估的全面研究

A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment

Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang

TL;DR通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Abstract

While multimodal large language models (MLLMs) have experienced significant advancement on visual understanding and reasoning, their potentials to serve as powerful, flexible, interpretable, and text-driven models for Image Quality Assessment (IQA) remains largely unexplored. In this p

multimodal large language models image quality assessment prompting systems psychophysics visual attributes

发现论文，激发创造

Q-Boost: 低层多模态基础模型的视觉质量评估能力研究

通过引入中性提示和多提示集成两个关键的组成部分，Q-Boost 方法在图像质量评估和视频质量评估任务中增强了低级多模态大语言模型在低级视觉问题方面的能力，并展示了优秀的零样本性能。

Dec, 2023

2AFC 大型多模态模型的图像质量评估

通过使用 2AFC 提示，评估了大型多模态模型（LMMs）的图像质量评估（IQA）能力，并引入了三个评估标准，结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力，但在细粒度的质量判别方面仍有提升空间。

Feb, 2024

超越评分：通过多模态语言模型推进图像质量评估

介绍了一种名为 DepictQA 的图像质量评估方法，利用多模式大型语言模型（MLLMs）进行详细的、基于语言的、类似人类的图像质量评估，相比传统基于分数的方法，DepictQA 可以描述性地解释图像内容和失真，并与人类的推理过程密切相关，通过建立分层任务框架并收集名为 M-BAPPS 的多模式 IQA 训练数据集来构建 DepictQA 模型，利用多源训练数据和专业图像标签来处理有限的训练数据和处理多个图像的挑战，DepictQA 在 BAPPS 基准测试中表现更好，更能生成准确的推理描述语言，研究结果表明基于语言的 IQA 方法有潜力根据个体偏好进行定制，数据集和代码将公开发布。

Dec, 2023

多模态提示学习的盲目图像质量评估

该文章介绍了一种基于多模式提示的创新图像质量评估方法，通过精心设计的提示，从视觉和语言数据中挖掘增量语义信息，在不同数据集上展现出竞争性能，达到了鲁棒性和准确性的提升。

Apr, 2024

多模式大型语言模型综述

本文旨在追踪和总结 MLLM 的最新进展，包括 MLLM 的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

基于质量驱动数据选择的课程学习

通过利用图像文字相互关系和模型困惑度评估选择数据的品质，本研究提出了一种利用两个属性在二维空间选择数据的数据选择方法。研究结果表明，相比于使用完整数据集，在五种常见能力上得到了显著提升，可以构建不同品质的多阶段子集以促进课程学习。

Jun, 2024

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024