Aug, 2023

Tiny LVLM-eHub: 与 Bard 的早期多模态实验

TL;DR本文通过提出轻量级的 LVLM-eHub 变体 Tiny LVLM-eHub,对 LVLMs 的多模态能力进行了早期和全面评估,特别关注了 Bard,通过定量评估 42 个标准文本相关视觉基准的视觉感知、视觉知识获取、视觉推理、视觉常识、物体幻象和具身智能等六个类别的多模态功能,并通过 ChatGPT Ensemble Evaluation (CEE) 对 LVLMs 的预测进行了深入分析,证明了 Bard 在大多数多模态能力上优于以前的 LVLMs,但在物体幻象方面仍然容易受到影响,Tiny LVLM-eHub 为各种 LVLMs 提供了基准评估,并鼓励旨在推进多模态技术的创新策略。