MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

Feb, 2024

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang...

TL;DR通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Abstract

multimodal large language models (mllms) have gained significant attention recently, showing remarkable potential in artificial general intelligence. However, assessing the utility of →

multimodal large language models mllms benchmark human preferences evaluation

发现论文，激发创造

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

评判裁决者：评估 LLM 裁决者的一致性和脆弱性

这篇论文通过对多种语言模型作为判断者的性能进行全面研究，发现了使用 Cohen 的 kappa 作为测度对齐度的重要性，并比较了不同模型之间的判断数据；该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类，然而在排名考生模型方面，JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究，包括指导长度和仁慈偏见的影响，该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。

Jun, 2024

人类还是 LLM 作为法官？对判断偏见的研究

采用人类和大型语言模型作为评判者（即人类和 LLM 评判者）来评估现有 LLM 的性能已经引起了关注。然而，这种方法同时引入了人类和 LLM 评判者的潜在偏见，对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。我们整理了一个包含 142 个样本的数据集，涉及修订后的布鲁姆分类法，并进行了数千次人类和 LLM 评估。结果表明，人类和 LLM 评判者在不同程度上都容易受到扰动，并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对 LLM 评判者进行了攻击。我们希望我们的工作能让社区意识到人类和 LLM 评判者在面对扰动时的脆弱性，以及开发健壮评估系统的紧迫性。

Feb, 2024

JudgeLM：经过优化的大型语言模型是可扩展的法官

通过对大规模语言模型进行微调以构建可扩展的评判模型，提出了一种有效评估大规模语言模型的方法，并成功应用于新的基准测试中，获得了最佳表现。

Oct, 2023

VisualWebBench：多模态 LLM 在网页理解和解释中的发展程度如何？

多模式大型语言模型在网页相关任务中表现出了很大的潜力，评估其在网页领域的性能仍然是一个挑战，因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试，其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs，如 Gemini Pro、Claude-3 系列和 GPT-4V (ision)，我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制，包括在文本丰富环境中缺乏足够的基础知识，并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源，并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。

Apr, 2024

MIA-Bench: 多模态 LLMs 的更好指令遵循评估

我们引入了 MIA-Bench，一个新的基准测试，旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型，我们发现性能存在显著差异，突出了指令准确性方面的改进空间。此外，我们创建了额外的训练数据，并探索监督微调来提高模型在严格遵循指令的能力，而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度，还能指导未来的多模态大型语言模型训练方法的发展。

Jul, 2024

LLM 是否可以成为个性化的法官？

基于个性化评判的高可信度大型语言模型在评估上提供了更可靠和可扩展的方法，并显示出与人类判断相当甚至超出人类在高可信度样本上的表现。

Jun, 2024

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

多模态大型语言模型中的顺序视觉输入推理和预测基准测试

多模式大型语言模型在感知和解释任务中显示出巨大潜力，但其在预测推理方面的能力尚未得到充分探索。为填补这一空白，我们引入了一个新颖的基准测试，评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法，以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性，并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后，我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架，并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。

Oct, 2023