评估 GPT-4-Vision 在基于 UML 的代码生成中的能力
使用大型语言模型(LLMs)如 ChatGPT 从自然语言中生成代码似乎是开创性的。然而,随着更广泛的使用,显然这种方法有自己的局限性。本研究提出了一种敏捷模型驱动开发(MDD)方法,使用 OpenAI 的 GPT-4 来增强代码自动生成。我们的工作强调 “敏捷性” 是对当前 MDD 方法的重要贡献,特别是当模型发生变化或需要部署到不同的编程语言时。因此,我们展示了一个案例研究,展示了无人驾驶车队的多代理仿真系统。在我们的方法的第一层和第二层,我们使用统一建模语言(UML)图示构建了案例研究的文本表示。在下一层中,我们引入了两组约束,以最小化模型的歧义性。对象约束语言(OCL)被应用于微调代码构建细节,而 FIPA 本体论用于塑造通信语义和协议。最后,利用 GPT-4,我们的最后一层自动生成 Java 和 Python 两种代码。Java 代码在 JADE 框架中部署,而 Python 代码在 PADE 框架中部署。在研究的结论部分,我们进行了对生成代码的全面评估。从行为角度来看,自动生成的代码与预期的 UML 顺序图完全一致。结构上,我们比较了仅受 OCL 约束的从 UML 图中导出的代码与既受 OCL 又受 FIPA 本体论影响的代码的复杂性。结果表明,本体论约束的模型产生了固有更复杂的代码,但仍然可管理并且对进一步的测试和维护风险较低。
Oct, 2023
ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力,但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难,提示未来考试需要改进问题设计。研究结果表明,虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力,但人类监督仍然至关重要,以验证模型的准确性并确保高风险教育考试的公平性。
Jun, 2024
最近,GPT-4 语言模型与视觉能力相结合,我们对 GPT-4V 和其他五个基准模型进行了提示评估,包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought,在多模态 LLMs 上的扩展,在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析,突出了一致性多模态推理所面临的挑战。
Dec, 2023
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
利用 GPT-4V 模型进行了一项广泛评估,涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务,在分析中发现了该模型在处理复杂设计和制造挑战方面的能力,并确定了其在复杂工程设计应用中的局限性。
Nov, 2023
GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态(如深度、热力、视频和音频)方面被评估,发现其在英语视觉基准上表现出色,但无法识别图像中的简单中文文本;在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制,但通过少样本提示可以提高其性能;此外,在视频和热力等与图像类似的任务上表现出了非常好的性能。
Oct, 2023
生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力,但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GPT-4 两个模型在不同场景的可视化编程领域中的表现,并通过专家评注进行了性能评估。结果显示这些模型在整合空间、逻辑和编程技能方面性能较差,为改进生成式模型在可视化编程中的表现提供了有趣的发展方向。
Jul, 2023
GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力,尽管存在一些限制,但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。
Nov, 2023
这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了 GPT-4V 在某些评估指标(如 CIDEr)上仍需改进,尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面,虽然 GPT-4V 在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如 BLEU 分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然 GPT-4V 在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。
Oct, 2023