Dec, 2023

Q-Align: 使用离散文本定义的级别教导 LMMs 进行视觉评分

TL;DR通过模拟人类评级中的主观过程并使用文本定义的等级来教授大型多模态模型,该方法在图像质量评估、图像美学评估和视频质量评估任务上实现了最先进的性能,并提出了将这三个任务统一到一个模型中的 OneAlign 模型。