多模态可学习查询用于图像美学评估

May, 2024

多模态可学习查询用于图像美学评估

Multi-modal Learnable Queries for Image Aesthetics Assessment

Zhiwei Xiong, Yunfan Zhang, Zhiqi Shen, Peiran Ren, Han Yu

TL;DR利用多模式学习查询 (MMLQ) 从多模式预训练特征中提取与美学相关的特征，实验结果表明其在多模式图像美学评估方面取得了新的最优性能，SRCC 和 PLCC 分别超过先前方法 7.7% 和 8.3%。

Abstract

image aesthetics assessment (IAA) is attracting wide interest with the prevalence of social media. The problem is challenging due to its subjective and ambiguous nature. Instead of directly extracting

image aesthetics assessment social media aesthetic features user comments mmlq

发现论文，激发创造

可学习查询的图像美学评估

通过可学习的查询（IAA-LQ）方法，从预训练的图像特征中提取美学特征，对图像进行美学评估，在真实世界数据上表现优于最先进的方法 2.2％的 SRCC 和 2.1％的 PLCC。

Sep, 2023

UniQA: 图像质量与美学评估的统一视觉语言预训练

图像质量评估和图像美学评估的统一视觉语言预训练 (UniQA) 方法能够同时提高这两个任务的性能并展现优异的无需训练样本和少标签图像评估能力。

Jun, 2024

UNIAA: 统一的多模态图像审美评估基准和参考

通过提出统一多模态图像审美评估（UNIAA）框架，包括带有视觉感知和语言能力的多模态大型语言模型（MLLM）UNIAA-LLaVA 以及一个全面的基准 UNIAA-Bench，本文将图像审美评估（IAA）的成本降低，并通过解决现有数据集转化问题，在多个审美水平上验证了 UNIAA 的有效性和合理性。

Apr, 2024

AesExpert：面向图像美学感知的多模态基础模型

通过构建 Aesthetic Multi-Modality Instruction Tuning（AesMMIT）数据集，并基于该数据集进行 fine-tuning，实现了 multi-modality Aesthetic Expert 模型，即 AesExpert，其在审美知觉性能方面显著优于当前最先进的 MLLMs

Apr, 2024

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

多模态提示学习的盲目图像质量评估

该文章介绍了一种基于多模式提示的创新图像质量评估方法，通过精心设计的提示，从视觉和语言数据中挖掘增量语义信息，在不同数据集上展现出竞争性能，达到了鲁棒性和准确性的提升。

Apr, 2024

2AFC 大型多模态模型的图像质量评估

通过使用 2AFC 提示，评估了大型多模态模型（LMMs）的图像质量评估（IQA）能力，并引入了三个评估标准，结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力，但在细粒度的质量判别方面仍有提升空间。

Feb, 2024

大型多模型协助 AI 生成图像质量评估

利用深度神经网络对 AI 生成的图像进行质量评估存在挑战，我们引入了一个大型多模态模型辅助 AI 生成图像质量评估（MA-AGIQA）模型，通过文本提示敏锐感知语义信息并提取语义向量，并使用专家混合结构动态整合语义信息和传统 DNN 基于 IQA 模型提取的质量感知特征来解决当前 IQA 模型在语义感知方面的不足，实验证明 MA-AGIQA 在评估 AI 生成图像质量方面具有最先进的性能和出色的泛化能力。

Apr, 2024

VILA：利用视觉语言预训练学习用户评论中的图像美学

提出一种基于用户评论的图像审美预测方法，使用视觉 - 语言预训练模型学习图像的审美表现，结合排名适配器模块设计了一种高效的模型适配方法。实验结果表明，该模型在图像美学字幕生成、零样本风格分类和零样本图像审美评价等任务上表现良好，达到了预先训练模型的最佳性能。

Mar, 2023

超越评分：通过多模态语言模型推进图像质量评估

介绍了一种名为 DepictQA 的图像质量评估方法，利用多模式大型语言模型（MLLMs）进行详细的、基于语言的、类似人类的图像质量评估，相比传统基于分数的方法，DepictQA 可以描述性地解释图像内容和失真，并与人类的推理过程密切相关，通过建立分层任务框架并收集名为 M-BAPPS 的多模式 IQA 训练数据集来构建 DepictQA 模型，利用多源训练数据和专业图像标签来处理有限的训练数据和处理多个图像的挑战，DepictQA 在 BAPPS 基准测试中表现更好，更能生成准确的推理描述语言，研究结果表明基于语言的 IQA 方法有潜力根据个体偏好进行定制，数据集和代码将公开发布。

Dec, 2023