大型语言模型作为自动标定器用于基准测试视觉语言模型

Nov, 2023

大型语言模型作为自动标定器用于基准测试视觉语言模型

Large Language Models as Automated Aligners for benchmarking Vision-Language Models

Yuanfeng Ji, Chongjian Ge, Weikai Kong, Enze Xie, Zhengying Liu...

TL;DR通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Abstract

With the advancements in large language models (LLMs), vision-language models (vlms) have reached a new level of sophistication, showing n

large language models vision-language models auto-bench data curation vlms

发现论文，激发创造

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

AlignMMBench：对大规模视觉 - 语言模型中的中文多模态对齐进行评估

本研究通过引入 AlignMMBench，一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准，从真实场景和中国互联网来源精心策划，并包括三个类别中的十三个具体任务，以及单轮和多轮对话场景。通过结合一个提示重写策略，AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程，我们提出了 CritiqueVLM，一个超越 GPT-4 评估能力的规则校准评估器。最后，我们报告了 AlignMMBench 上代表性 VLM 的性能，提供了不同 VLM 架构的能力和限制的见解。

Jun, 2024

WildVision：使用人类偏好评估在野外的视觉语言模型

最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通过从 WV-Arena 的 8,000 个用户提交中选择 500 个高质量样本来策划 WV-Bench。WV-Bench 使用 GPT-4 作为评判标准，将每个 VLM 与 Claude-3-Sonnet 进行比较，在 WV-Arena Elo 上实现了 0.94 的斯皮尔曼相关性。这在很大程度上超过了像 MMVet，MMMU 和 MMStar 这样的其他基准测试。我们对 2 万个现实世界的交互的全面分析揭示了表现最佳的 VLMs 的失败案例中的重要见解。例如，我们发现虽然 GPT-4V 在简单的视觉识别和推理任务方面超过了 Reka-Flash，Opus 和 Yi-VL-Plus 等许多其他模型，但它仍然面临着微妙的上下文提示，空间推理，视觉想象力和专家领域知识的挑战。此外，当前的 VLMs 在受到故意引发时存在幻觉和安全问题。我们正在发布我们的聊天和反馈数据，以进一步推进 VLMs 领域的研究。

Jun, 2024

近期大型视觉 - 语言模型的有效性评估

大视觉语言模型在专业任务和通用任务中的效能进行综合评估，发现它们在专业任务和通用任务中均表现有限，可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。

Mar, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023