Apr, 2024

VisualWebBench:多模态 LLM 在网页理解和解释中的发展程度如何?

TL;DR多模式大型语言模型在网页相关任务中表现出了很大的潜力,评估其在网页领域的性能仍然是一个挑战,因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试,其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs,如 Gemini Pro、Claude-3 系列和 GPT-4V (ision),我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制,包括在文本丰富环境中缺乏足够的基础知识,并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源,并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。