Tiny LVLM-eHub: 与 Bard 的早期多模态实验

Aug, 2023

Tiny LVLM-eHub: 与 Bard 的早期多模态实验

Tiny LVLM-eHub: Early Multimodal Experiments with Bard

Wenqi Shao, Yutao Hu, Peng Gao, Meng Lei, Kaipeng Zhang...

TL;DR本文通过提出轻量级的 LVLM-eHub 变体 Tiny LVLM-eHub，对 LVLMs 的多模态能力进行了早期和全面评估，特别关注了 Bard，通过定量评估 42 个标准文本相关视觉基准的视觉感知、视觉知识获取、视觉推理、视觉常识、物体幻象和具身智能等六个类别的多模态功能，并通过 ChatGPT Ensemble Evaluation (CEE) 对 LVLMs 的预测进行了深入分析，证明了 Bard 在大多数多模态能力上优于以前的 LVLMs，但在物体幻象方面仍然容易受到影响，Tiny LVLM-eHub 为各种 LVLMs 提供了基准评估，并鼓励旨在推进多模态技术的创新策略。

Abstract

Recent advancements in large vision-language models (LVLMs) have demonstrated significant progress in tackling complex multimodal tasks. Among these cutting-edge developments, Google's bard stands out for its rem

large vision-language models multimodal capabilities tiny lvlm-ehub evaluation bard

发现论文，激发创造

LVLM-eHub：面向大型视觉语言模型的全面评估基准

本文介绍了一个 LVLM-eHub 综合评估平台，使用 6 种多模态能力定量评估 47 个标准文本相关视觉基准，并利用在线平台提供用户级评估。结果显示，采用多轮推理评估框架可以缓解对象幻觉问题，为开发有效的 LVLM 评估流水线提供了启示。

Jun, 2023

解码图像：释放大型语言模型

通过一项挑战 - 回应研究，我们对 Google Bard 进行了 64 个视觉挑战，旨在探查多模式大型语言模型（LLMs）的能力。我们的发现表明，Bard 在确定图像中的线索时更倾向于根据直觉做出猜测，并且不依赖于 OCR 库而使用类似 Google Lens 和 Visual API 的深度学习模型来识别复杂图像中的文本。然而，Bard 无法重新绘制 ASCII 艺术或解析简单的井字棋网格，这项研究为多模式 LLMs 的当前能力和改进方向提供了实验性见解。

Aug, 2023

魔法后的 MERLIM: 大型图像 - 语言模型的多模态评估基准

本文介绍了一个名为 MERLIM 的多模式评估基准，用于评估 IT-LVLM 在基本计算机视觉任务中的表现，发现先进的 IT-LVLM 仍然有限于识别精细的视觉概念，对象幻觉在各种任务中普遍存在，而且结果受输入查询的细微变化的强烈偏见影响，即使查询具有相同的语义。研究结果还表明，这些模型在视觉基础上较弱，但仍然可以通过全局视觉模式或 LLM 组件中的文本偏见进行恰当的猜测。

Dec, 2023

MMT-Bench：一个综合评估大型视觉语言模型向多任务人工通用智能发展的多模态基准

该研究介绍了 MMT-Bench，这是一个综合性评估基准，旨在评估大规模视觉 - 语言模型（LVLM）在多种跨领域的多模态任务上的能力，并促进下一代通用多模态智能基础模型的发展。

Apr, 2024

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于 LLM 中的世界知识。2）在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题，我们提出了 MMStar，这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM，以评估它们的多模态能力，并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

Google 巴德对抗图像攻击的鲁棒性

通过对 Google 的 Bard 进行攻击，该研究揭示了商业多模态大型语言模型（MLLMs）的脆弱性，发现了两种 Bard 的防御机制并提出了相应的攻击方法，从而深入了解了 MLLMs 的鲁棒性，并促进未来研究的发展。

Sep, 2023

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。

Jun, 2024

TouchStone: 通过语言模型评估视觉 - 语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

近期大型视觉 - 语言模型的有效性评估

大视觉语言模型在专业任务和通用任务中的效能进行综合评估，发现它们在专业任务和通用任务中均表现有限，可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。

Mar, 2024

WildVision：使用人类偏好评估在野外的视觉语言模型

最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通过从 WV-Arena 的 8,000 个用户提交中选择 500 个高质量样本来策划 WV-Bench。WV-Bench 使用 GPT-4 作为评判标准，将每个 VLM 与 Claude-3-Sonnet 进行比较，在 WV-Arena Elo 上实现了 0.94 的斯皮尔曼相关性。这在很大程度上超过了像 MMVet，MMMU 和 MMStar 这样的其他基准测试。我们对 2 万个现实世界的交互的全面分析揭示了表现最佳的 VLMs 的失败案例中的重要见解。例如，我们发现虽然 GPT-4V 在简单的视觉识别和推理任务方面超过了 Reka-Flash，Opus 和 Yi-VL-Plus 等许多其他模型，但它仍然面临着微妙的上下文提示，空间推理，视觉想象力和专家领域知识的挑战。此外，当前的 VLMs 在受到故意引发时存在幻觉和安全问题。我们正在发布我们的聊天和反馈数据，以进一步推进 VLMs 领域的研究。

Jun, 2024