自然语言处理中的数值表示：调研与展望

ACLMar, 2021

自然语言处理中的数值表示：调研与展望

Representing Numbers in NLP: a Survey and a Vision

Avijit Thawani, Jay Pujara, Pedro A. Szekely, Filip Ilievski

TL;DR综合分类了 NLP 中与数字相关的任务和方法，分析了 18 种数字编码器和解码器的多样性代表性选择和最佳实践，提出了在自然语言处理中实现整体数字能力的愿景，并明确了设计考虑和统一评估。

Abstract

nlp systems rarely give special consideration to numbers found in text. This starkly contrasts with the consensus in neuroscience that, in the brain, numbers are represented differently from words. We arrange recent nlp

nlp numeracy taxonomy representational choices evaluation

发现论文，激发创造

NLP 模型是否了解数字？探究嵌入中的数字能力

探讨了 NLP 模型对数字理解（数值能力）的处理方法，发现现有的模型在 DROP 数据集上表现优秀，并在合成的数字相关任务上检验了 BERT、GloVe 等词向量方法，发现字符级别的嵌入方式更加精确，ELMo pre-training 方法的准确性最好。

Sep, 2019

通过将数字视为实体来提高下游任务性能

本研究利用最先进的自然语言处理模型及其分类能力，将数字分类为实体，从而使 NLP 模型在多项任务中具备更好的表现，超越了 BERT 和 RoBERTa 的基线分类结果。

May, 2022

无回归估计数字

改变语言模型的词汇表，而不是架构，可以更好地处理数字；在预测掩码数字和数值事实估计方面具有相似的性能，这要归功于仔细设计的标记化方案。

Oct, 2023

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

语言模型的数值能力评估与提升

探索用语言模型建模数字的不同策略，提出使用连续概率密度函数来建模开放词汇中数字的新型神经架构，并在临床和科学数据集上进行评估表明使用分层模型可显著提高困惑度指标，连续概率密度函数模型相较于其他策略可分别将平均绝对百分比误差降低 18％和 54％。

May, 2018

语言模型对数字的理解，至少在某种程度上

研究表明大型语言模型在理解和利用数字以及在数学问题上进行计算方面具有部分能力。

Jan, 2024

NumeroLogic：增强 LLMs 数值推理的数字编码

通过调整数字的表示方式，使用 NumeroLogic 格式，我们为语言模型处理数字数据和执行算术运算的困难提供了解决方法，并改进了自然语言理解性能。

Mar, 2024

大型语言模型中的数字大小比较效应

本文研究大型语言模型（LLMs）是否能够准确地表示数字，并发现尽管缺少直接支持这些表示的神经电路，不同结构的 LLMs 中存在着类似于人类语言使用者的数字表示，这证明了使用行为基准理解 LLMs 的实用性，并为今后关于 LLMs 数字表示和它们的认知合理性的研究指出了方向。

May, 2023

探索语言模型中的内部数理能力：ALBERT 的研究案例

该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据，并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析（PCA），我们提取这些模型用于表示数字和序数的令牌的学习嵌入，PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序，数字及其文本对应部分分别在不同的簇中表示，但在 2D 空间中沿着相同的方向增长。我们的发现表明，纯粹用于建模文本的语言模型可以理解基本的数学概念，为与定量推理交叉的 NLP 应用开辟了新的发展路径。

Apr, 2024

评估文图模型中的数值推理

我们综合评估了一系列文本到图像生成模型在不同难度的数值推理任务上的性能，并展示即使是最先进的模型在数学技能方面也较为基础，特别是它们在生成图像中正确表达准确数量对象的能力仅限于较小的数字，并高度依赖于数字术语所出现的上下文，并且随着每个连续的数字，能力迅速恶化。我们还展示了模型对语言量化词（如 “几个” 或 “尽可能多”）的理解能力较差，对零的概念有困难，并且在部分数量和分数表示等更高级的概念方面存在困难。我们将提示、生成的图像和人工注释捆绑在一起，推出了 GeckoNum，一个用于评估数值推理的新基准。

Jun, 2024