ICLRFeb, 2024

测量神经模型的视觉 - 语言 STEM 技能

TL;DR我们介绍了一个新的挑战来测试神经模型的 STEM 技能,我们的数据集涵盖了 STEM 的多模式视觉语言信息,包括了 448 项技能和 1,073,146 个问题,与现有数据集相比,我们的数据集涵盖了从幼儿园到 12 年级课程的基础技能和问题,并添加了 CLIP 和 GPT-3.5-Turbo 等最新的基础模型到我们的基准测试,结果表明,最近的模型进展只有在我们数据集中的一小部分低年级技能(三年级的 2.5%)上有所帮助,事实上,这些模型的性能仍然远低于小学生的平均水平(仅平均 54.7%),更不用说接近专家级性能了,为了提高我们数据集上的模型性能,我们将模型训练在数据集的训练集上,尽管我们观察到性能有所提升,但与普通小学生相比,模型性能仍然相对较低,因此我们需要来自社区的创新算法来解决 STEM 问题。