盲人视觉 - 语言一致性引导的多模态提示学习用于 AI 生成图像质量评估

Jun, 2024

盲人视觉 - 语言一致性引导的多模态提示学习用于 AI 生成图像质量评估

Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment

Jun Fu, Wei Zhou, Qiuping Jiang, Hantao Liu, Guangtao Zhai

TL;DR提出了一种基于视觉 - 语言一致性指导的多模态提示学习方法，称为 CLIP-AGIQA，用于盲目的 AI 生成图像质量评估，该方法在两个公共 AGIQA 数据集上的实验结果表明其优于现有的质量评估模型。

Abstract

Recently, textual prompt tuning has shown inspirational performance in adapting Contrastive Language-Image Pre-training (CLIP) models to natural image quality assessment. However, such uni-modal prompt learning method only tunes the language branch of CLIP models. This is not enough fo

textual prompt tuning clip-agiqa multi-modal prompt learning vision-language consistency image quality assessment

发现论文，激发创造

多模态提示学习的盲目图像质量评估

该文章介绍了一种基于多模式提示的创新图像质量评估方法，通过精心设计的提示，从视觉和语言数据中挖掘增量语义信息，在不同数据集上展现出竞争性能，达到了鲁棒性和准确性的提升。

Apr, 2024

将文本提示引入 AI 生成的图像质量评估

通过图像和提示的融合，IP-IQA 是一个多模态框架，旨在解决 AI 生成图像质量评估中的问题，并在 AGIQA-1k 和 AGIQA-3k 数据集上达到最先进的水平。

Mar, 2024

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

COMMA: 共同表达多模式学习

本研究提出了 Co-Articulated Multi-Modal Learning (COMMA) 方法，通过联合考虑视觉和语言分支的提示来增强两者的表示对齐，并减轻预训练模型中基本知识的遗忘，实现在多个任务中对新类别、新目标数据集和未见域漂移的良好性能提升。

Dec, 2023

PCQA：基于提示条件的 AIGC 质量评估的强基准

研究提出了一种基于混合提示编码和基于集成的特征混合模块的 AIGC 质量评估框架，验证了方法在两个数据集上的有效性，从而促进了多模态生成领域的研究发展。

Apr, 2024

MaPLe: 多模态提示学习

本研究提出了多模态提示学习 (MaPLe) 的方法，旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示，以逐步建模分阶段的特征关系，并促进视觉 - 语言提示之间的强耦合，以改善 CLIP 的下游任务结果。结果表明，该方法具有良好的性能和广泛的应用前景。

Oct, 2022

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试，语言指导使得 CLIP 的性能提高了 7.6%，BLIP-2 的性能提高了 4.8%；使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。

Oct, 2023

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024