MJ-Bench: 您的多模态奖励模型真的是进行文本生成图像的好判断器吗?
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了3,600个评分。
Nov, 2022
通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法8.7%。
Jul, 2023
基于强大的大型语言模型(LLMs),最近的生成式多模态大型语言模型(MLLMs)作为一个关键的研究领域备受关注,展示了出色的理解和生成能力。本研究通过引入一个名为SEED-Bench的基准测试,解决了MLLMs生成理解的评估问题,该基准测试包含19K个准确的多项选择问题(是现有基准测试的6倍大),涵盖了12个评估维度,包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题,该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能,在评估过程中无需人类或GPT的干预。我们进一步评估了18个模型在所有12个维度上的性能,涵盖了空间和时间的理解。通过评估结果揭示现有MLLMs的局限性,我们希望SEED-Bench为激发未来的研究提供见解。我们将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。
Jul, 2023
通过使用全面的评估框架MM-BigBench,本文综合评估了20个语言模型(包括14个多模态大型语言模型)在14个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
填补大型多模型(LMMs)评估中的不足,通过研究其输出在常见破坏情况下的自一致性,调查文本、图像和语音之间的跨模态交互,创建了一个综合性基准MMCbench,评估了100多个受欢迎的LMMs(共150个模型检查点),此全面评估对于实际部署至关重要,并有助于更好地了解顶尖LMMs的可靠性。
Jan, 2024
通过引入一种新的基准测试,MLLMs作为评判者,本研究揭示了MLLMs在评估任务中的能力,并发现MLLMs在对人员喜好的评估和排名任务中存在显著差异,同时面临着多样的偏见、幻觉反应和不一致问题,强调了对MLLMs进一步改进和研究的迫切需求。
Feb, 2024
该研究旨在通过引入MileBench基准来系统评估多模态大型语言模型(MLLMs)在长上下文和多图像任务中的适应能力,并发现开源MLLMs在长上下文情境中面临着挑战,尤其在涉及多图像的情景下。
Apr, 2024
通过对多个多模态大型语言模型进行实验,我们发现高级图片感知能力方面存在较大差距,并且这些模型在理解高级语义和捕捉图片细节方面存在限制。此外,当提供图片情感极性提示时,大多数模型表现出更好的准确性,暴露出它们对图片情感的内在理解不足。
Jun, 2024
本文通过对GenAI-Bench上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现VQAScore比先前的评估指标(如CLIPScore)明显优于人类评分,而且VQAScore可以在黑盒的基础上通过简单地对候选图像进行排名(3到9张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore的排名效果比其他评分方法如PickScore、HPSv2和ImageReward提高2倍至3倍。
Jun, 2024
多模态大语言模型中,偏好对齐是增强模型性能的关键组成部分,但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面,包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明,将离线和在线方法相结合可在某些情况下提高模型性能。
Jul, 2024