Prometheus-Vision：以视觉语言模型作为细粒度评估的评判者

Jan, 2024

Prometheus-Vision：以视觉语言模型作为细粒度评估的评判者

Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation

Seongyun Lee, Seungone Kim, Sue Hyun Park, Geewook Kim, Minjoon Seo

TL;DR我们提出了一种用于评估 Vision-Language Models（VLMs）的新方法，使用了一个名为 Perception Collection 的反馈数据集，并通过该数据集训练了一个开源的 VLM 评估模型 Prometheus-Vision，该模型在评估 VLMs 时表现出与人类评估者和 GPT-4V 最高的皮尔逊相关性，显示出其对 VLMs 的透明和可访问性评估的有效性。

Abstract

Assessing long-form responses generated by vision-language models (vlms) is challenging. It not only requires checking whether the VLM follows the given instruction but also verifying whether the text output is p

vision-language models vlms feedback dataset perception collection prometheus-vision

发现论文，激发创造

Prometheus: 语言模型细粒度评估能力的引入

通过建立 Feedback Collection 数据集，使用 Prometheus 这一开源 LLM 评估模型，我们可以有效地根据用户提供的评分标准来评估任何长篇文本，其得分与人类评估员的相关性达到了 0.897，与 GPT-4 相当，并且明显优于 ChatGPT (0.392)。

Oct, 2023

WildVision：使用人类偏好评估在野外的视觉语言模型

最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通过从 WV-Arena 的 8,000 个用户提交中选择 500 个高质量样本来策划 WV-Bench。WV-Bench 使用 GPT-4 作为评判标准，将每个 VLM 与 Claude-3-Sonnet 进行比较，在 WV-Arena Elo 上实现了 0.94 的斯皮尔曼相关性。这在很大程度上超过了像 MMVet，MMMU 和 MMStar 这样的其他基准测试。我们对 2 万个现实世界的交互的全面分析揭示了表现最佳的 VLMs 的失败案例中的重要见解。例如，我们发现虽然 GPT-4V 在简单的视觉识别和推理任务方面超过了 Reka-Flash，Opus 和 Yi-VL-Plus 等许多其他模型，但它仍然面临着微妙的上下文提示，空间推理，视觉想象力和专家领域知识的挑战。此外，当前的 VLMs 在受到故意引发时存在幻觉和安全问题。我们正在发布我们的聊天和反馈数据，以进一步推进 VLMs 领域的研究。

Jun, 2024

TouchStone: 通过语言模型评估视觉 - 语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

Prometheus 2：一个专门用于评估其他语言模型的开源语言模型

通过引入更强大的评估语言模型 Prometheus 2，我们解决了存在于开源评估语言模型中的问题，并达到了与人类和专有语言模型评价最高一致性和相似性的结果。

May, 2024

LOVM: 语言优先视觉模型选择

本研究提出了一种热门研究课题，即如何对多模态视觉 - 语言模型进行选择和预测，并利用新的基准测试 LOVM 来进行考核评估。

Jun, 2023

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

评估视觉语言模型的图像评论能力

使用大规模视觉语言模型（LVLMs）为图像生成评价文本。通过基于排名相关分析的评估方法，验证了 LVLMs 在区分高质量和次标准图像评价中的优越性。

Feb, 2024

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

综合、诊断和优化：朝着细粒度的视觉 - 语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是，四个领先的 VLM 在 SPEC 上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023