评估大型视觉语言模型时,我们究竟在衡量什么?潜在因素和偏见的分析
通过引入 VLBiasBench 数据集和进行广泛的评估,我们对大型视觉语言模型中的偏见进行了全面研究,并揭示了一些新的见解。
Jun, 2024
这篇论文从时间的角度对视觉语言智能进行了全面的调研,总结了三个时期的发展,包括特定任务方法,视觉 - 语言预训练方法和通过大规模弱标签数据增强的更大模型,并讨论了未来的发展趋势.
Mar, 2022
通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见,我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向,希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。
Feb, 2024
本研究介绍了一个名为 VLUE 的视觉语言理解评估基准,可用于评估 VLP 模型的泛化能力和效率 - 性能权衡。该基准显示了所有 VLP 模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距,并且衡量 VLP 模型的效率 - 性能权衡可为设计选择提供有益见解。
May, 2022
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在 VLMs 设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个 8 亿参数的高效基础 VLM 模型
May, 2024
提出了 VALSE(Vision And Language Structured Evaluation)机制,用于对通用预训练视觉和语言模型的视觉和语言关联能力进行有针对性的测试,包括六个测试套件,检测多种语言结构,为一种语言学评估的基准模型。已通过评估五种广泛使用的模型来构建 VALSE,实验结果表明,许多模型难以处理大多数现象。
Dec, 2021
该研究评估了大型视觉语言模型(LVLMs)区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型,但存在向右的偏差,并且相对于人类表现出明显较差。为了深入研究这些发现,我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成,从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准,我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势,并推进了基准构建技术,提供了一种可扩展和自动化的人工智能模型评估方法。
Jun, 2024
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023
视觉 - 语言模型(VLMs)可以通过多种语言回答有关图像的问题。然而,除了语言,文化也影响我们的观察方式。在这项研究中,我们展示了一项新颖的调查,证明并定位了 VLMs 在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估,我们发现 VLMs 在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平 VLMs 的多样语言混合的重要性,即使是在英语推理的情况下。此外,虽然使用目标文化语言进行提示可以减少偏见,但并不能替代构建更具世界语言代表性的人工智能。
Jun, 2024