评估 ChatGPT-4 Vision 在巴西国家本科计算机科学考试中

Jun, 2024

评估 ChatGPT-4 Vision 在巴西国家本科计算机科学考试中

Evaluating ChatGPT-4 Vision on Brazil's National Undergraduate Computer Science Exam

Nabor C. Mendonça

TL;DRChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力，但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难，提示未来考试需要改进问题设计。研究结果表明，虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力，但人类监督仍然至关重要，以验证模型的准确性并确保高风险教育考试的公平性。

Abstract

The recent integration of visual capabilities into Large Language Models (LLMs) has the potential to play a pivotal role in science and technology education, where visual elements such as diagrams, charts, and tables are commonly used to improve the learning experience. This study inve

visual capabilities chatgpt-4 vision academic assessment question interpretation question design

发现论文，激发创造

评估 GPT-4 在巴西大学入学考试中的视觉能力

通过综合文本和视觉元素，对语言模型在入学考试上进行评估的综合框架表明 GPT-4 在处理复杂多学科问题方面具有最先进的能力，但数学问题仍然是这些模型的挑战。

Nov, 2023

医学应用的多模态 ChatGPT：GPT-4V 的实验研究

我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估，实验充分评估了 GPT-4V 在使用包括 11 种模态（如显微镜、皮肤镜、X 射线、CT 等）和十五种感兴趣的对象（如脑、肝脏、肺等）的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明，目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外，我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征，突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。

Oct, 2023

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。

Nov, 2023

使用视觉评估 GPT-4 的美学评价能力：来自群体和个体评估的见解

最近，研究发现大型语言模型在各种智力任务中表现出色，然而，很少有研究探讨其与人类行为对齐，特别是涉及审美评价的行为。本研究调查了可以处理图像输入的先进语言模型 GPT-4 with Vision 在图像的审美评价任务上的表现。我们采用了两个任务，一个是预测一个群体的平均评价值，另一个是预测个体的评价值。通过探索提示和分析预测行为，我们调查了 GPT-4 with Vision 的表现。实验结果显示，GPT-4 with Vision 在预测审美评价方面表现出优秀的性能，并展现出对美和丑之间不同响应的特性。最后，我们讨论了基于人类对美感知的科学知识以及融合传统深度学习模型和大型语言模型的代理技术来开发用于审美评价的 AI 系统。

Mar, 2024

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

评估 ChatGPT 和 GPT-4 在视觉编程中的应用

生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力，但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GPT-4 两个模型在不同场景的可视化编程领域中的表现，并通过专家评注进行了性能评估。结果显示这些模型在整合空间、逻辑和编程技能方面性能较差，为改进生成式模型在可视化编程中的表现提供了有趣的发展方向。

Jul, 2023