走向开放式的视觉质量比较
通过 Compare2Score 模型,我们成功地将文本定义的比较级别与转换后的单个图像质量得分进行了有效的联系,不仅在训练过程中有效地使用了丰富的图像质量评估数据集,而且在推理过程中通过概率矩阵自适应地转换了离线图像到连续质量得分的比较级别,从而成功超越了目前最先进的图像质量评估模型。
May, 2024
该研究介绍了 MM-Instruct,这是一个大规模、多样化和高质量的视觉指导数据集,旨在增强大型多模态模型(LMMs)的指令跟随能力,并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据,并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。
Jun, 2024
通过对多模态大语言模型(MLLMs)在图像质量评估(IQA)中的应用进行综合系统的研究和探索,发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知,但在细粒度的质量变化(如颜色差异)和多图像的视觉质量比较等任务上较为薄弱。
Mar, 2024
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
通过使用 2AFC 提示,评估了大型多模态模型(LMMs)的图像质量评估(IQA)能力,并引入了三个评估标准,结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力,但在细粒度的质量判别方面仍有提升空间。
Feb, 2024
基于 Depicted Image Quality Assessment in the Wild (DepictQA-Wild) 方法构建了一个多功能的图像质量评估任务范式,包括评估和比较任务,从而构建了一个全面、大规模且高质量的数据集 DQ-495K,结果显示 DepictQA-Wild 在失真识别、即时评分和推理任务中明显优于传统基于分数的方法、之前的基于 Vision Language Models 的图像质量评估模型和专有的 GPT-4V。
May, 2024
当探索人工通用智能(AGI)的发展时,大型多模态模型(LMMs)在处理多个图像输入的信息时面临两个问题:细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面:首先,图像与图像匹配(评估 LMMs 是否能够有效推理和配对相关图像),其次,多图像与文本匹配(评估 LMMs 是否能够准确捕捉和总结详细的图像信息)。我们对一系列开源和闭源的大型模型进行评估,包括 GPT-4V,Gemini,OpenFlamingo 和 MMICL。为了增强模型性能,我们还基于多输入多模态模型开发了一种对比的思维链(CoCoT)启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性,然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。
Jan, 2024
通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令,我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V,并通过实验验证和案例研究证明,高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。
Nov, 2023
我们引入了 MIA-Bench,一个新的基准测试,旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型,我们发现性能存在显著差异,突出了指令准确性方面的改进空间。此外,我们创建了额外的训练数据,并探索监督微调来提高模型在严格遵循指令的能力,而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度,还能指导未来的多模态大型语言模型训练方法的发展。
Jul, 2024