走向开放式的视觉质量比较

Feb, 2024

Towards Open-ended Visual Quality Comparison

Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen...

TL;DR本研究提出了 Co-Instruct 方法来在开放式比较设置中进一步提升视觉质量比较，通过收集数据集和建立多图像比较的基准，证明了 Co-Instruct 在图像质量评估方面的优越性。

Abstract

Comparative settings (e.g. pairwise choice, listwise ranking) have been adopted by a wide range of subjective studies for image quality assessment (IQA), as it inherently standardizes the evaluation criteria across different observers and offer more clear-cut responses. In this work, w

image quality assessment visual quality comparison co-instruct lmms micbench

发现论文，激发创造

通过教授大型多模态模型进行自适应图像质量评估

通过 Compare2Score 模型，我们成功地将文本定义的比较级别与转换后的单个图像质量得分进行了有效的联系，不仅在训练过程中有效地使用了丰富的图像质量评估数据集，而且在推理过程中通过概率矩阵自适应地转换了离线图像到连续质量得分的比较级别，从而成功超越了目前最先进的图像质量评估模型。

May, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

低级视觉上多模态基础模型的基准：从单图像到图像对

通过设计基准测试，评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力，并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现，多个 MLLMs 在单一图像上表现出不错的低层次视觉能力，但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性（类似于人类）。希望这个基准测试能够激发进一步研究，揭示和增强 MLLMs 的新兴能力。

Feb, 2024

2AFC 大型多模态模型的图像质量评估

通过使用 2AFC 提示，评估了大型多模态模型（LMMs）的图像质量评估（IQA）能力，并引入了三个评估标准，结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力，但在细粒度的质量判别方面仍有提升空间。

Feb, 2024

VisualCritic：使线性混合模型像人类一样感知视觉质量

探索大型多模态模型在视觉质量评估方面的能力并提出了第一个用于广谱图像主观质量评估的 LMM，VisualCritic。

Mar, 2024

野外环境下的图像描述性质量评估

基于 Depicted Image Quality Assessment in the Wild (DepictQA-Wild) 方法构建了一个多功能的图像质量评估任务范式，包括评估和比较任务，从而构建了一个全面、大规模且高质量的数据集 DQ-495K，结果显示 DepictQA-Wild 在失真识别、即时评分和推理任务中明显优于传统基于分数的方法、之前的基于 Vision Language Models 的图像质量评估模型和专有的 GPT-4V。

May, 2024

CoCoT: 大型多模型多图像输入的对比思维链接引导

当探索人工通用智能（AGI）的发展时，大型多模态模型（LMMs）在处理多个图像输入的信息时面临两个问题：细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面：首先，图像与图像匹配（评估 LMMs 是否能够有效推理和配对相关图像），其次，多图像与文本匹配（评估 LMMs 是否能够准确捕捉和总结详细的图像信息）。我们对一系列开源和闭源的大型模型进行评估，包括 GPT-4V，Gemini，OpenFlamingo 和 MMICL。为了增强模型性能，我们还基于多输入多模态模型开发了一种对比的思维链（CoCoT）启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性，然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。

Jan, 2024

看得见才能相信：促进 GPT-4V 实现更好的视觉指导调优

通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令，我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V，并通过实验验证和案例研究证明，高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。

Nov, 2023

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024