提出了一种基于视觉 - 语言一致性指导的多模态提示学习方法,称为 CLIP-AGIQA,用于盲目的 AI 生成图像质量评估,该方法在两个公共 AGIQA 数据集上的实验结果表明其优于现有的质量评估模型。
Jun, 2024
提出了一种基于文本的语义相关质量评价方法 (SAQI) 及其本地化版本 (SAQI-Local)。通过与现有低级指标结合,提出了统一盲视频质量指数 (BVQI) 及其改进版 (BVQI-Local),并通过有效的微调方案,实现了优于普遍基于人类意见的 VQA 方法的性能和卓越的泛化能力。
Apr, 2023
通过使用图像 - 得分对(ISP)来引导预测,并通过数据增强策略训练,我们提出了 PromptIQA 方法来适应各种多样化的 IQA 任务需求,并具有更高的性能和更好的泛化能力。
Mar, 2024
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023
提出了一种新颖的预训练框架,通过从通用视觉语言模型中选择性提取与图像质量相关的知识,并利用大型数据集的可扩展性,构建了一种适用于图像质量评估的通用表示。同时我们的方法在多个数据集上取得了最先进的性能,并展现了显著的泛化能力。
通过图像和提示的融合,IP-IQA 是一个多模态框架,旨在解决 AI 生成图像质量评估中的问题,并在 AGIQA-1k 和 AGIQA-3k 数据集上达到最先进的水平。
提出了一种基于多任务学习的盲图像质量评估方法,可以自动学习来自其他任务的辅助知识,通过精心设计的损失函数进行优化,实验证明该方法可以优于现有技术在多个智商数据集上,并且在群体最大区分竞赛中更具鲁棒性。
Mar, 2023
通过对多模态大语言模型(MLLMs)在图像质量评估(IQA)中的应用进行综合系统的研究和探索,发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知,但在细粒度的质量变化(如颜色差异)和多图像的视觉质量比较等任务上较为薄弱。
通过引入中性提示和多提示集成两个关键的组成部分,Q-Boost 方法在图像质量评估和视频质量评估任务中增强了低级多模态大语言模型在低级视觉问题方面的能力,并展示了优秀的零样本性能。
Dec, 2023
本文介绍了一种名为 SLIQUE 的新型盲目图像质量评估 (BIQA) 模型,该模型采用联合视觉 - 语言和视觉对比表示学习框架,通过获取关于图像语义内容、畸变特征和外观属性的高级知识来进行质量评估。为了训练 SLIQUE,我们开发了一种系统的方法来构建一个首个具有所有三类质量相关文本注释的大型图像数据库 TADAC。TADAC 数据库拥有超过 160 万张图像,用文本描述它们的语义内容、畸变特征和外观属性。构建 TADAC 的方法和数据库本身将特别有助于利用视觉 - 语言建模进行高级图像质量评估应用。大量实验结果显示,SLIQUE 在性能上优于现有技术,证明了其设计原理的完整性和实现的有效性。