机器数感:一组用于抽象和关系推理的视觉算术问题数据集
通过使用大规模 Transformer 架构的生成式人工智能模型,本研究调查了是否能可靠地命名简单视觉刺激中的物体数量或生成包含 1-10 范围内目标数量物体的图像。令人惊讶的是,所有考虑的基础模型都没有以人类的方式表现出来:即使在小数量下也会出现明显错误,响应的变异性通常没有按系统方式增加,错误的模式也随物体类别而变化。我们的研究结果表明,高级人工智能系统仍然缺乏支持直观理解数字的基本能力,这对人类的数字能力和数学发展至关重要。
Jan, 2024
提出了一个名为 NumNet 的数值 MRC 模型,它利用带数值意识的图神经网络,考虑问题和段落中数字上的比较信息,从而执行数值推理,理解人类阅读理解中的关键技能。在 DROP 数据集上,我们的系统取得了 EM 得分 64.56%,优于所有现有的机器阅读理解模型,这是因为我们考虑了数字之间的数值关系。
Oct, 2019
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
我们综合评估了一系列文本到图像生成模型在不同难度的数值推理任务上的性能,并展示即使是最先进的模型在数学技能方面也较为基础,特别是它们在生成图像中正确表达准确数量对象的能力仅限于较小的数字,并高度依赖于数字术语所出现的上下文,并且随着每个连续的数字,能力迅速恶化。我们还展示了模型对语言量化词(如 “几个” 或 “尽可能多”)的理解能力较差,对零的概念有困难,并且在部分数量和分数表示等更高级的概念方面存在困难。我们将提示、生成的图像和人工注释捆绑在一起,推出了 GeckoNum,一个用于评估数值推理的新基准。
Jun, 2024
该研究针对数学领域中的推理、学习、应用规则等独特挑战,提出了一个数学问题套件的任务,用于测试和评估神经架构等系统的性能、能力和失效模式。通过生成数据并运用序列到序列的最强模型,可以从不同角度评估模型在数学问题解决和知识推广方面的能力。
Apr, 2019
该研究通过构建可训练模块的编程 - 解释器框架,增加加减法模块,弥补了神经模块网络在多类型、数字推理方面的能力,实验证明该方法提高了 F1 值,表现优于现有模型。
Oct, 2022
提出了一种新的推理感知预训练方法,使用对比学习将另一种数字表示形式纳入预训练模型,通过基于推理的数字预测任务训练来提高其数值推理能力,实验结果表明该方法在需要数值推理的任务上能够提高准确性,并且人类评估显示该方法能够提高数据集上的事实正确性。
May, 2022
介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效,并需具有探测数据中的问题格式,查找中间常见格式,加入常识知识和解决不同格式数据不平衡的能力。同时,构建了多个基线模型,包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差,说明了该基准测试的难度。
May, 2020