评估 GPT-4 在巴西大学入学考试中的视觉能力

Nov, 2023

评估 GPT-4 在巴西大学入学考试中的视觉能力

Evaluating GPT-4's Vision Capabilities on Brazilian University Admission Exams

Ramon Pires, Thales Sales Almeida, Hugo Abonizio, Rodrigo Nogueira

TL;DR通过综合文本和视觉元素，对语言模型在入学考试上进行评估的综合框架表明 GPT-4 在处理复杂多学科问题方面具有最先进的能力，但数学问题仍然是这些模型的挑战。

Abstract

Recent advancements in language models have showcased human-comparable performance in academic entrance exams. However, existing studies often overlook questions that require the integration of →

language models visual comprehension entrance exams multimodal language models mathematical questions

发现论文，激发创造

评估 ChatGPT-4 Vision 在巴西国家本科计算机科学考试中

ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力，但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难，提示未来考试需要改进问题设计。研究结果表明，虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力，但人类监督仍然至关重要，以验证模型的准确性并确保高风险教育考试的公平性。

Jun, 2024

评估 GPT-3.5 和 GPT-4 模型在巴西大学入学考试中的表现

本研究通过分析 GPT-3.5 和 GPT-4 对 Exame Nacional do Ensino Médio 的表现以及不同提示策略的测试，旨在探讨语言模型在解决跨学科知识问题的高风险选择题方面的能力。 2022 年版的 GPT-4 with CoT 模型表现最佳，精度达到了 87％。

Mar, 2023

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

多语言视觉推理中缺少的内容及其修复方法

NLP 模型通过在视觉推理任务上的测试，评估了多语言、多模态方面的能力。通过分析模型的失败，提出了三个针对性干预措施，包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能，并稍微改善了 GPT-4V 的性能。

Mar, 2024

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

EXAMS-V: 用于评估视觉语言模型的多学科多语言多模态考试基准

我们推出了 EXAMS-V，一个新的多学科多模态多语言考试基准，用于评估视觉语言模型。它包含了 20932 个跨越自然科学、社会科学和其他各种学科的多项选择题，如宗教、美术、商务等。EXAMS-V 包含了多种多模态特征，例如文本、图像、表格、图表、图解、地图、科学符号和方程式。这些问题来自于 7 个语系的 11 种语言。与现有的基准不同，EXAMS-V 是通过收集各个国家的校园考试问题，采用多样化的教育体系进行精心策划的。这种独特的方法需要进行复杂的推理，涉及多种语言和地域特定的知识。解决数据集中的问题需要对文本和图像内容进行高级感知和联合推理。我们的评估结果表明，即使对于像 GPT-4V 和 Gemini 这样的先进视觉 - 文本模型，这也是一个具有挑战性的数据集；这凸显了数据集的内在复杂性以及作为未来基准的重要性。

Mar, 2024

BLUEX：基于巴西顶尖大学入学考试的基准测试

BLUEX 数据集为评价自然语言理解和推理在葡萄牙语中的最先进技术提供了基准，并标注了图像在每个问题中的位置，是推进多模态语言理解和推理技术的宝贵资源。

Jul, 2023

医学应用的多模态 ChatGPT：GPT-4V 的实验研究

我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估，实验充分评估了 GPT-4V 在使用包括 11 种模态（如显微镜、皮肤镜、X 射线、CT 等）和十五种感兴趣的对象（如脑、肝脏、肺等）的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明，目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外，我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征，突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。

Oct, 2023

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。

Nov, 2023