在线视觉问答中 GPT-4V 和 Gemini 的评估

Dec, 2023

在线视觉问答中 GPT-4V 和 Gemini 的评估

An Evaluation of GPT-4V and Gemini in Online VQA

Mengchen Liu, Chongyan Chen

TL;DR我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了这两个模型的最具挑战性的问题。

Abstract

A comprehensive evaluation is critical to assess the capabilities of large multimodal models (LMM). In this study, we evaluate the state-of-the-art LMMs, namely gpt-4v and →

comprehensive evaluation large multimodal models vqaonline dataset gpt-4v gemini

发现论文，激发创造

Gemini 对 GPT-4V：基于定性案例的视觉 - 语言模型初步比较与结合

这篇论文对谷歌的 Gemini 和 OpenAI 的 GPT-4V (ision) 两个创新模型进行了深入的比较研究，重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现，发现 GPT-4V 以精准简洁的回答著称，而 Gemini 在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了 Gemini 和 GPT-4V 的比较优势，也突显了多模式基础模型领域的发展，为未来的进展铺平了道路。

Dec, 2023

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

教育证据显示 GPT-4V 战胜 Gemini Pro

本研究通过使用视觉问答（VQA）技术比较了 Gemini Pro 和 GPT-4V 在教育环境下的分类表现，研究了这两个模型在科学教育中阅读基于文本的评分标准并自动评分学生绘制模型的能力。研究发现，GPT-4V 在评分准确性和二次加权 Kappa 方面显著优于 Gemini Pro。定性分析表明，差异可能源于模型处理图像中细粒度文本以及整体图像分类性能的能力。即使调整 NERIF 方法进一步减小输入图像的大小，Gemini Pro 的表现仍不如 GPT-4V。研究结果表明，GPT-4V 在处理复杂多模态教育任务方面具有优异能力。研究结论指出，虽然两个模型都代表了人工智能的进步，但 GPT-4V 的更高性能使其成为涉及多模态数据解释的教育应用更合适的工具。

Dec, 2023

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

医学应用的多模态 ChatGPT：GPT-4V 的实验研究

我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估，实验充分评估了 GPT-4V 在使用包括 11 种模态（如显微镜、皮肤镜、X 射线、CT 等）和十五种感兴趣的对象（如脑、肝脏、肺等）的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明，目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外，我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征，突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。

Oct, 2023

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

GPT-4V 是一种通用的互联网代理系统，具有视觉能力

本文研究了大型多模态模型 (LMMs)，特别是 GPT-4V (ision) 和 Gemini 的最新进展，扩展了多模态模型的能力边界，超出了传统任务如图像标题生成和视觉问答。我们提出了 SEEACT，一种利用 LMMs 的通用网络代理，可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的 MIND2WEB 基准上进行评估，我们展示了 GPT-4V 在网络代理中的巨大潜力，如果我们将其文本计划手动转化为网站上的动作，它可以成功完成 50% 的任务，这大大优于仅针对网络代理进行优化的纯文本 LLMs，如 GPT-4 或更小的模型 (FLAN-T5 和 BLIP-2)。然而，转化仍然是一个主要的挑战，现有的 LMM 转化策略，如集合标记提示，并不适用于网络代理，而我们在本文中开发的最佳转化策略利用了 HTML 文本和视觉信息。然而，与理想转化仍然存在相当大的差距，这给进一步改进留下了充分的空间。

Jan, 2024

探索大型多模型模型对于密集文本的能力

本研究通过在 DT-VQA 数据集上对 GPT4V、Gemini 和不同的开源 LMM 进行全面评估，揭示了它们的优点和缺点，并评估了 LMM 的两种策略：prompt engineering 和 downstream fine-tuning。研究发现，即使使用自动标记的训练数据集，模型性能也能显著提高，希望本研究能促进 LMM 在密集文本任务中的研究。

May, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023