实现教育的视觉问答：GPT-4V 作为一种多模态人工智能

May, 2024

实现教育的视觉问答：GPT-4V 作为一种多模态人工智能

Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI

Gyeong-Geon Lee, Xiaoming Zhai

TL;DR这篇论文介绍了 Visual Question Answering（VQA）技术在教育研究中的应用，特别是 GPT-4V 在促进 VQA 技术的普及和提高教育研究方法方面的作用。

Abstract

Educational scholars have analyzed various image data acquired from teaching and learning situations, such as photos that shows classroom dynamics, students' drawings with regard to the learning content, textbook illustrations, etc. Unquestioningly, most →

image data qualitative analysis visual question answering gpt-4v educational research

发现论文，激发创造

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

医学应用的多模态 ChatGPT：GPT-4V 的实验研究

我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估，实验充分评估了 GPT-4V 在使用包括 11 种模态（如显微镜、皮肤镜、X 射线、CT 等）和十五种感兴趣的对象（如脑、肝脏、肺等）的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明，目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外，我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征，突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。

Oct, 2023

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

教育证据显示 GPT-4V 战胜 Gemini Pro

本研究通过使用视觉问答（VQA）技术比较了 Gemini Pro 和 GPT-4V 在教育环境下的分类表现，研究了这两个模型在科学教育中阅读基于文本的评分标准并自动评分学生绘制模型的能力。研究发现，GPT-4V 在评分准确性和二次加权 Kappa 方面显著优于 Gemini Pro。定性分析表明，差异可能源于模型处理图像中细粒度文本以及整体图像分类性能的能力。即使调整 NERIF 方法进一步减小输入图像的大小，Gemini Pro 的表现仍不如 GPT-4V。研究结果表明，GPT-4V 在处理复杂多模态教育任务方面具有优异能力。研究结论指出，虽然两个模型都代表了人工智能的进步，但 GPT-4V 的更高性能使其成为涉及多模态数据解释的教育应用更合适的工具。

Dec, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

SurgicalGPT: 外科视觉问答的端到端语言 - 视觉生成预训练模型

本文介绍了一种可伸缩的 Language-Vision GPT（LV-GPT）模型，它将 GPT2 模型扩展到包括视觉输入（图像），以改进机器人手术中的视觉问题回答（VQA）任务，该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。

Apr, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017