Q-Align: 使用离散文本定义的级别教导 LMMs 进行视觉评分

Dec, 2023

Q-Align: 使用离散文本定义的级别教导 LMMs 进行视觉评分

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Haoning Wu, Zicheng Zhang, Weixia Zhang, Chaofeng Chen, Liang Liao...

TL;DR通过模拟人类评级中的主观过程并使用文本定义的等级来教授大型多模态模型，该方法在图像质量评估、图像美学评估和视频质量评估任务上实现了最先进的性能，并提出了将这三个任务统一到一个模型中的 OneAlign 模型。

Abstract

The explosion of visual content available online underscores the requirement for an accurate machine assessor to robustly evaluate scores across diverse types of visual contents. While recent studies have demonst

visual content machine assessor multi-modality models visual rating discrete text-defined levels

发现论文，激发创造

通过教授大型多模态模型进行自适应图像质量评估

通过 Compare2Score 模型，我们成功地将文本定义的比较级别与转换后的单个图像质量得分进行了有效的联系，不仅在训练过程中有效地使用了丰富的图像质量评估数据集，而且在推理过程中通过概率矩阵自适应地转换了离线图像到连续质量得分的比较级别，从而成功超越了目前最先进的图像质量评估模型。

May, 2024

Q-Boost: 低层多模态基础模型的视觉质量评估能力研究

通过引入中性提示和多提示集成两个关键的组成部分，Q-Boost 方法在图像质量评估和视频质量评估任务中增强了低级多模态大语言模型在低级视觉问题方面的能力，并展示了优秀的零样本性能。

Dec, 2023

有选择性地回答视觉问题

近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Jun, 2024

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

VisualCritic：使线性混合模型像人类一样感知视觉质量

探索大型多模态模型在视觉质量评估方面的能力并提出了第一个用于广谱图像主观质量评估的 LMM，VisualCritic。

Mar, 2024

超越评分：通过多模态语言模型推进图像质量评估

介绍了一种名为 DepictQA 的图像质量评估方法，利用多模式大型语言模型（MLLMs）进行详细的、基于语言的、类似人类的图像质量评估，相比传统基于分数的方法，DepictQA 可以描述性地解释图像内容和失真，并与人类的推理过程密切相关，通过建立分层任务框架并收集名为 M-BAPPS 的多模式 IQA 训练数据集来构建 DepictQA 模型，利用多源训练数据和专业图像标签来处理有限的训练数据和处理多个图像的挑战，DepictQA 在 BAPPS 基准测试中表现更好，更能生成准确的推理描述语言，研究结果表明基于语言的 IQA 方法有潜力根据个体偏好进行定制，数据集和代码将公开发布。

Dec, 2023

LMM-PCQA：利用 LMM 辅助点云质量评估

本研究旨在通过文本监督将大型多模式模型 (LMMs) 引入点云质量评估 (PCQA)，实现 PCQA 知识对 LMMs 的传授，从而提高模型理解和评估的准确性，并希望这些贡献能够激发对 LMMs 与 PCQA 融合的后续研究，促进 3D 视觉质量分析及其他领域的进展。

Apr, 2024

2AFC 大型多模态模型的图像质量评估

通过使用 2AFC 提示，评估了大型多模态模型（LMMs）的图像质量评估（IQA）能力，并引入了三个评估标准，结果显示现有的 LMMs 在粗粒度的质量比较上表现出较高的 IQA 能力，但在细粒度的质量判别方面仍有提升空间。

Feb, 2024

划分、评估与改进：基于迭代 VQA 反馈的文本到图像对齐的评估和改进

通过分解式对齐评估和改进文本到图像的对齐效果，并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明，这种对齐度指标与人类评分高度相关，并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明，该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。

Jul, 2023

Q-Bench：针对低级视觉的通用基准模型基准

通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准，评估了多模式大型语言模型在低层视觉感知和理解方面的能力，并发现其具有基本的低层视觉技能，但这些技能仍不稳定和相对不精确，需要针对这些能力进行特定的增强。

Sep, 2023