测量神经模型的视觉 - 语言 STEM 技能

ICLRFeb, 2024

测量神经模型的视觉 - 语言 STEM 技能

Measuring Vision-Language STEM Skills of Neural Models

Jianhao Shen, Ye Yuan, Srbuhi Mirzoyan, Ming Zhang, Chenguang Wang

TL;DR我们介绍了一个新的挑战来测试神经模型的 STEM 技能，我们的数据集涵盖了 STEM 的多模式视觉语言信息，包括了 448 项技能和 1,073,146 个问题，与现有数据集相比，我们的数据集涵盖了从幼儿园到 12 年级课程的基础技能和问题，并添加了 CLIP 和 GPT-3.5-Turbo 等最新的基础模型到我们的基准测试，结果表明，最近的模型进展只有在我们数据集中的一小部分低年级技能（三年级的 2.5%）上有所帮助，事实上，这些模型的性能仍然远低于小学生的平均水平（仅平均 54.7%），更不用说接近专家级性能了，为了提高我们数据集上的模型性能，我们将模型训练在数据集的训练集上，尽管我们观察到性能有所提升，但与普通小学生相比，模型性能仍然相对较低，因此我们需要来自社区的创新算法来解决 STEM 问题。

Abstract

We introduce a new challenge to test the stem skills of neural models. The problems in the real world often require solutions, combining knowledge from STEM (science, technology, engineering, and math). Unlike ex

stem skills neural models multimodal vision-language dataset algorithmic innovations

发现论文，激发创造

通过生成式人工智能阐述 STEM 概念：类比推理的多模态探索

本研究探讨了将生成式人工智能（AI）和多模态类比推理相结合，作为增强科学、技术、工程和数学（STEM）教育的创新方法。我们开发了一个新颖的系统，利用生成式 AI 的能力，将数学、物理和编程中复杂的原理转化为易于理解的隐喻。为了进一步增强学习体验，这些隐喻随后被转化为视觉形式。我们的研究旨在通过使用视觉隐喻来提高学习者对 STEM 概念的理解和学习参与度。通过随机的 A/B/C 测试，评估学习效果和学习者的动机变化，我们检验了我们的系统的效能。我们的研究证明了将大型语言模型应用于 STEM 学科教育实践的潜力。结果将为教育系统的设计提供利用人工智能的潜力来赋能教育相关方面的启示。

Aug, 2023

在小学可视化编程中对生成模型进行计算思维测试的基准评估

通过使用基于符号方法生成的综合数据集，对生成模型进行微调以提高在计算思维测试中的表现。

Jun, 2024

测量大规模多任务语言理解

论文提出了一种新的测试方法，以测量文本模型的多任务准确性，涵盖了包括数学、历史、计算机科学、法律等 57 项任务，为了达到高准确性，模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度，我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。

Sep, 2020

由语言模型发展而来的数据科学：从文科到数科

研究表明，大型语言模型在将读写能力转化为计算能力方面存在翻译难题，但通过对所描述的四个复杂数据集的统计分析，结合不能通过简单规则编码或记忆的算术操作，可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性回归预测海量数据的能力。

Jan, 2023

使用数学数据集衡量数学问题解决能力

介绍了一种新的 MATH 数据集，其中包含 12500 个具有挑战性的竞赛数学问题，每个问题都有全面的解决方案，可以用于教模型生成答案推导和解释。尽管研究者不断增加 Transformer 模型的预算和参数总数，但在 MATH 的准确性仍然相对较低，因此未来的研究可能需要更广泛的算法进步。

Mar, 2021

认知网络科学揭示 GPT-3，ChatGPT 和 GPT-4 存在偏见，反映出高中学生数学焦虑

应用行为形态网络方法，研究了三个最新版本的大型语言模型 GPT-3、Chat-GPT 和 GPT-4 对数学和 STEM 领域的感知。结果表明，LLMs 对数学和 STEM 领域普遍持有负面看法，其中数学的看法尤为负面。最新版本的 LLMs 相对于旧版本和高中生感知更复杂、更少负面看法，这表明 LLMs 架构的进步有可能导致越来越不带偏见的模型，甚至有望消除有害刻板印象而不是延续它们。

May, 2023

推进几何问题求解：多模型评估的全面基准

通过 MM-MATH 数据集，该研究旨在评估多模态模型在几何计算领域的性能，发现当前模型从图像中解析和解释几何信息存在显著不足，强调评估方法应包括推理和过程正确性，以填补文本和图像理解方面的关键差距，以此激发进一步研究和发展，推动多模态模型能力的提升。

Apr, 2024

评估 ChatGPT-4 Vision 在巴西国家本科计算机科学考试中

ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力，但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难，提示未来考试需要改进问题设计。研究结果表明，虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力，但人类监督仍然至关重要，以验证模型的准确性并确保高风险教育考试的公平性。

Jun, 2024

利用大型语言模型探索麻省理工学院数学和电子工程学课程

本文展示了大型语言模型在解决麻省理工学院数学和电气工程与计算机科学课程期末试卷及期中考卷等问题时的表现，GPT-3.5 可成功解决了麻省理工学院三分之一的课程，而经过优化的 GPT-4 在去除图像题后表现完美；同时，作者将该数据集应用于语言模型的学习和评分，通过 few-shot learning 等发现了问题、题目和课程之间的关系，并探索了课程要求和课程设计等问题。

Jun, 2023

从概念到制造：评估用于工程设计的视觉语言模型

利用 GPT-4V 模型进行了一项广泛评估，涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务，在分析中发现了该模型在处理复杂设计和制造挑战方面的能力，并确定了其在复杂工程设计应用中的局限性。

Nov, 2023