评估文图模型中的数值推理

Jun, 2024

Evaluating Numerical Reasoning in Text-to-Image Models

Ivana Kajić, Olivia Wiles, Isabela Albuquerque, Matthias Bauer, Su Wang...

TL;DR我们综合评估了一系列文本到图像生成模型在不同难度的数值推理任务上的性能，并展示即使是最先进的模型在数学技能方面也较为基础，特别是它们在生成图像中正确表达准确数量对象的能力仅限于较小的数字，并高度依赖于数字术语所出现的上下文，并且随着每个连续的数字，能力迅速恶化。我们还展示了模型对语言量化词（如 “几个” 或 “尽可能多”）的理解能力较差，对零的概念有困难，并且在部分数量和分数表示等更高级的概念方面存在困难。我们将提示、生成的图像和人工注释捆绑在一起，推出了 GeckoNum，一个用于评估数值推理的新基准。

Abstract

text-to-image generative models are capable of producing high-quality images that often faithfully depict concepts described using natural language. In this work, we comprehensively evaluate a range of text-to-image models on numerical reasoning tasks of varying difficulty, and show th

text-to-image generative models numerical reasoning tasks linguistic quantifiers geckonum benchmark

发现论文，激发创造

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

大规模生成式人工智能模型缺乏视觉数值感知能力

通过使用大规模 Transformer 架构的生成式人工智能模型，本研究调查了是否能可靠地命名简单视觉刺激中的物体数量或生成包含 1-10 范围内目标数量物体的图像。令人惊讶的是，所有考虑的基础模型都没有以人类的方式表现出来：即使在小数量下也会出现明显错误，响应的变异性通常没有按系统方式增加，错误的模式也随物体类别而变化。我们的研究结果表明，高级人工智能系统仍然缺乏支持直观理解数字的基本能力，这对人类的数字能力和数学发展至关重要。

Jan, 2024

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

朝向与问题格式无关的数值推理：一套必备任务

介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效，并需具有探测数据中的问题格式，查找中间常见格式，加入常识知识和解决不同格式数据不平衡的能力。同时，构建了多个基线模型，包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差，说明了该基准测试的难度。

May, 2020

反思：通过解线性方程组反向引导语言模型进行数值推理

本文提出了一种利用锚定数字来诱发和利用预先训练的语言模型潜在的数字推理知识的新方法，通过在复杂的数字上应用简单的锚定数字隐含的推理表达式，以显式地得到相应的答案并训练语言模型的数字推理能力。实验结果表明该方法显著提高了现有语言模型的数字推理能力。

Oct, 2022

DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见

对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查，提出 PaintSkills 工具集进行测量评估，发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距，并且其在性别和肤色方面的偏见对其表现产生了影响。

Feb, 2022

机器阅读理解任务中的数值推理：我们已经到达了吗？

本文研究了针对数字推理任务的自然语言处理模型表现，并发现现有的评估指标无法有效测量模型在这一任务上的进展。

Sep, 2021

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

语言模型的数值能力评估与提升

探索用语言模型建模数字的不同策略，提出使用连续概率密度函数来建模开放词汇中数字的新型神经架构，并在临床和科学数据集上进行评估表明使用分层模型可显著提高困惑度指标，连续概率密度函数模型相较于其他策略可分别将平均绝对百分比误差降低 18％和 54％。

May, 2018