多模态提示学习的盲目图像质量评估

Apr, 2024

多模态提示学习的盲目图像质量评估

Multi-Modal Prompt Learning on Blind Image Quality Assessment

Wensheng Pan, Timin Gao, Yan Zhang, Runze Hu, Xiawu Zheng...

TL;DR该文章介绍了一种基于多模式提示的创新图像质量评估方法，通过精心设计的提示，从视觉和语言数据中挖掘增量语义信息，在不同数据集上展现出竞争性能，达到了鲁棒性和准确性的提升。

Abstract

image quality assessment (IQA) models benefit significantly from semantic information, which allows them to treat different types of objects distinctly. Currently, leveraging semantic information to enhance IQA i

image quality assessment semantic information clip image-text pretraining model multi-modal prompt-based methodology blind image quality assessment

发现论文，激发创造

盲人视觉 - 语言一致性引导的多模态提示学习用于 AI 生成图像质量评估

提出了一种基于视觉 - 语言一致性指导的多模态提示学习方法，称为 CLIP-AGIQA，用于盲目的 AI 生成图像质量评估，该方法在两个公共 AGIQA 数据集上的实验结果表明其优于现有的质量评估模型。

Jun, 2024

面向野外视频质量评估的鲁棒性文本提示语义标准

提出了一种基于文本的语义相关质量评价方法 (SAQI) 及其本地化版本 (SAQI-Local)。通过与现有低级指标结合，提出了统一盲视频质量指数 (BVQI) 及其改进版 (BVQI-Local)，并通过有效的微调方案，实现了优于普遍基于人类意见的 VQA 方法的性能和卓越的泛化能力。

Apr, 2023

PromptIQA：通过提示提升无参考图片质量评估的性能和泛化能力

通过使用图像 - 得分对（ISP）来引导预测，并通过数据增强策略训练，我们提出了 PromptIQA 方法来适应各种多样化的 IQA 任务需求，并具有更高的性能和更好的泛化能力。

Mar, 2024

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023

CLIP 引导属性感知预训练用于可泛化图像质量评估

提出了一种新颖的预训练框架，通过从通用视觉语言模型中选择性提取与图像质量相关的知识，并利用大型数据集的可扩展性，构建了一种适用于图像质量评估的通用表示。同时我们的方法在多个数据集上取得了最先进的性能，并展现了显著的泛化能力。

Jun, 2024

将文本提示引入 AI 生成的图像质量评估

通过图像和提示的融合，IP-IQA 是一个多模态框架，旨在解决 AI 生成图像质量评估中的问题，并在 AGIQA-1k 和 AGIQA-3k 数据集上达到最先进的水平。

Mar, 2024

通过视觉 - 语言对应的盲图像质量评估：多任务学习视角

提出了一种基于多任务学习的盲图像质量评估方法，可以自动学习来自其他任务的辅助知识，通过精心设计的损失函数进行优化，实验证明该方法可以优于现有技术在多个智商数据集上，并且在群体最大区分竞赛中更具鲁棒性。

Mar, 2023

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

Q-Boost: 低层多模态基础模型的视觉质量评估能力研究

通过引入中性提示和多提示集成两个关键的组成部分，Q-Boost 方法在图像质量评估和视频质量评估任务中增强了低级多模态大语言模型在低级视觉问题方面的能力，并展示了优秀的零样本性能。

Dec, 2023

基于视觉语言建模的图像质量评估：内容、失真和外观

本文介绍了一种名为 SLIQUE 的新型盲目图像质量评估 (BIQA) 模型，该模型采用联合视觉 - 语言和视觉对比表示学习框架，通过获取关于图像语义内容、畸变特征和外观属性的高级知识来进行质量评估。为了训练 SLIQUE，我们开发了一种系统的方法来构建一个首个具有所有三类质量相关文本注释的大型图像数据库 TADAC。TADAC 数据库拥有超过 160 万张图像，用文本描述它们的语义内容、畸变特征和外观属性。构建 TADAC 的方法和数据库本身将特别有助于利用视觉 - 语言建模进行高级图像质量评估应用。大量实验结果显示，SLIQUE 在性能上优于现有技术，证明了其设计原理的完整性和实现的有效性。

Jun, 2024