Dysca: LVLMs 感知能力评估的动态可扩展基准
该研究评估了大型视觉语言模型(LVLMs)区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型,但存在向右的偏差,并且相对于人类表现出明显较差。为了深入研究这些发现,我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成,从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准,我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势,并推进了基准构建技术,提供了一种可扩展和自动化的人工智能模型评估方法。
Jun, 2024
通过引入 VLBiasBench 数据集和进行广泛的评估,我们对大型视觉语言模型中的偏见进行了全面研究,并揭示了一些新的见解。
Jun, 2024
评估大规模视觉 - 语言模型(LVLMs)对敌对性视觉指令的稳健性和内容偏见的重要性,引入了 AVIBench 框架,通过多模态任务和内容偏见生成各类敌对性视觉指令进行全面评估。发现现有 LVLMs 存在漏洞和内在偏见,强调提高 LVLMs 的稳健性、安全性和公平性的重要性。
Mar, 2024
通过使用具有丰富语义的图像,我们提出了一种新的评估基准,评估大规模视觉语言模型(LVLMs)的高级认知能力。该基准定义了八种推理能力,并包括图像描述任务和视觉问答任务。我们对知名的 LVLMs 进行评估发现,LVLMs 与人类之间的认知能力差距仍然很大。
Feb, 2024
本文介绍了 DyVal,一种新颖、通用、灵活的评估协议,用于动态评估大型语言模型,根据该框架,借助有向无环图的结构优势,动态生成具有可控复杂度的评估样本,并在数学、逻辑推理和算法问题等推理任务上生成挑战性的评估集,实验证明大型语言模型在 DyVal 生成的评估样本中表现较差,强调动态评估的重要性。此外,分析了失败案例和不同提示方法的结果,并表明 DyVal 生成的样本不仅是评估集,还是改进 LLMs 在现有基准上性能的有用数据,希望 DyVal 能为未来的 LLMs 评估研究提供启示。
Sep, 2023
在计算机视觉和自然语言处理领域,本研究重要不可或缺的工具是大型视觉 - 语言模型(LVLMs),它们能够根据视觉输入生成文本描述。然而,我们的调查发现生成的内容存在显著的偏见,主要受到底层大型语言模型(LLMs)的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息,我们提出了两种简单且无需训练的策略。首先,对于分类或多项选择问题回答(QA)等任务,我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数,作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务,我们将这种方法扩展为 “去偏抽样”,借鉴了对比解码方法的灵感。此外,我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性,通过对不同设置的系统性探索,我们显著提高了性能,超过了现有评估结果,并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象,还有助于生成更有用和准确的插图。
Mar, 2024
我们介绍了 FAITHSCORE(Faithfulness to Atomic Image Facts Score),这是一个无需参考的细粒度评估指标,用于衡量大型视觉语言模型(LVLMs)生成的自由形式答案的忠实度。我们的度量方法与人类对忠实程度的判断高度相关,结果显示当前系统容易生成与图像不符的产生幻觉的内容,留下了改进的空间。此外,我们发现当前的 LVLMs 虽然在颜色和计数方面表现良好,但在回答长度较长、关系和多个对象方面仍然存在困难。
Nov, 2023
大型视觉语言模型(LVLMs)在生成看似可信但事实上不正确的输出时存在幻觉问题,这损害了它们的可靠性。为了解决这些问题,我们介绍了一个多维度的评估基准和基于大型语言模型(LLM)的两阶段评估框架,通过对现有 LVLMs 进行实验,证明了我们的评估方法比现有工作更全面、与人类更相关,并且强调了在保持输出信息性的同时解决 LVLMs 中的幻觉问题的关键平衡。
Apr, 2024
这篇论文介绍了 GenderBias-VL 基准测试,通过使用反事实视觉问题评估 LVLMs 中与职业相关的性别偏见,以个体公平标准为基准。该基准测试包含 34,581 个视觉问题反事实对,涵盖了 177 个职业,发现现有的 LVLMs 普遍存在性别偏见。
Jun, 2024
通过提出创新的评估方法并修正现有的视觉问答基准,我们的研究旨在推进我们对文本生成视觉语言模型能力的理解,提出了一种基于著名视觉分类数据集的新型视觉问答基准,可以对文本生成视觉语言模型进行细粒度评估,并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题,以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究,基于这项研究,我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型,并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础,促进了视觉语言建模领域的有针对性进展。
Feb, 2024