教育证据显示 GPT-4V 战胜 Gemini Pro

Dec, 2023

Gemini Pro Defeated by GPT-4V: Evidence from Education

Gyeong-Geon Lee, Ehsan Latif, Lehong Shi, Xiaoming Zhai

TL;DR本研究通过使用视觉问答（VQA）技术比较了 Gemini Pro 和 GPT-4V 在教育环境下的分类表现，研究了这两个模型在科学教育中阅读基于文本的评分标准并自动评分学生绘制模型的能力。研究发现，GPT-4V 在评分准确性和二次加权 Kappa 方面显著优于 Gemini Pro。定性分析表明，差异可能源于模型处理图像中细粒度文本以及整体图像分类性能的能力。即使调整 NERIF 方法进一步减小输入图像的大小，Gemini Pro 的表现仍不如 GPT-4V。研究结果表明，GPT-4V 在处理复杂多模态教育任务方面具有优异能力。研究结论指出，虽然两个模型都代表了人工智能的进步，但 GPT-4V 的更高性能使其成为涉及多模态数据解释的教育应用更合适的工具。

Abstract

This study compared the classification performance of gemini pro and gpt-4v in educational settings. Employing visual question answering (

gemini pro gpt-4v visual question answering science education multimodal data interpretation

发现论文，激发创造

Gemini 对 GPT-4V：基于定性案例的视觉 - 语言模型初步比较与结合

这篇论文对谷歌的 Gemini 和 OpenAI 的 GPT-4V (ision) 两个创新模型进行了深入的比较研究，重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现，发现 GPT-4V 以精准简洁的回答著称，而 Gemini 在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了 Gemini 和 GPT-4V 的比较优势，也突显了多模式基础模型领域的发展，为未来的进展铺平了道路。

Dec, 2023

在线视觉问答中 GPT-4V 和 Gemini 的评估

我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了这两个模型的最具挑战性的问题。

Dec, 2023

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

实现教育的视觉问答：GPT-4V 作为一种多模态人工智能

这篇论文介绍了 Visual Question Answering（VQA）技术在教育研究中的应用，特别是 GPT-4V 在促进 VQA 技术的普及和提高教育研究方法方面的作用。

May, 2024

Gemini 语言能力深度探析

Google Gemini 模型是首个与 OpenAI GPT 系列在各种任务上全面匹敌的模型，本文对该模型的语言能力进行深入探索，并提供第三方客观比较 OpenAI GPT 和 Google Gemini 模型的能力，分析两者各自擅长的领域，并发现对于我们测试的所有任务，Gemini Pro 在准确度上略低于相应的 GPT 3.5 Turbo。

Dec, 2023

NERIF：用于绘图模型自动评分的 GPT-4V

利用 GPT-4V 对学生绘制的模型进行自动评分的研究结果表明，尽管还有提高评分准确性的空间，但其中一些错误的评分在专家看来仍具有可解释性，这表明利用 GPT-4V 进行学生绘制模型的自动评分具有潜力。

Nov, 2023

GPT-4 视觉在医学中的专家级准确性背后的隐藏缺陷

通过对 Generative Pre-trained Transformer 4 with Vision (GPT-4V) 在图像理解、医学知识回忆和多模态推理等方面综合分析，本研究发现 GPT-4V 在多项选择准确性方面超过人类医生（88.0% vs. 77.0%，p=0.034），且在诊断错误的情况下准确率超过 80%。然而，我们还发现，GPT-4V 在作出正确选择的情况下，其解释经常存在缺陷（27.3%），尤其在图像理解方面（21.6%）。尽管 GPT-4V 在多项选择问题上准确率较高，但我们的发现强调了在将这类模型整合到临床工作流程之前进一步深入评估其解释的必要性。

Jan, 2024

挑战性医疗案例中的视觉与语言模型准确度

基于本研究的结果，利用大规模通用语言模型结合图像能够有效应对复杂医学病例，但图像的添加可能降低模型的准确性。

Nov, 2023