Dec, 2023

教育证据显示 GPT-4V 战胜 Gemini Pro

TL;DR本研究通过使用视觉问答(VQA)技术比较了 Gemini Pro 和 GPT-4V 在教育环境下的分类表现,研究了这两个模型在科学教育中阅读基于文本的评分标准并自动评分学生绘制模型的能力。研究发现,GPT-4V 在评分准确性和二次加权 Kappa 方面显著优于 Gemini Pro。定性分析表明,差异可能源于模型处理图像中细粒度文本以及整体图像分类性能的能力。即使调整 NERIF 方法进一步减小输入图像的大小,Gemini Pro 的表现仍不如 GPT-4V。研究结果表明,GPT-4V 在处理复杂多模态教育任务方面具有优异能力。研究结论指出,虽然两个模型都代表了人工智能的进步,但 GPT-4V 的更高性能使其成为涉及多模态数据解释的教育应用更合适的工具。