语言模型的数值能力评估与提升

ACLMay, 2018

Numeracy for Language Models: Evaluating and Improving their Ability to Predict Numbers

Georgios P. Spithourakis, Sebastian Riedel

TL;DR探索用语言模型建模数字的不同策略，提出使用连续概率密度函数来建模开放词汇中数字的新型神经架构，并在临床和科学数据集上进行评估表明使用分层模型可显著提高困惑度指标，连续概率密度函数模型相较于其他策略可分别将平均绝对百分比误差降低 18％和 54％。

Abstract

numeracy is the ability to understand and work with numbers. It is a necessary skill for composing and understanding documents in clinical, scientific, and other technical domains. In this paper, we explore different strategies for modelling numerals with →

numeracy language models neural architecture clinical datasets scientific datasets

发现论文，激发创造

NLP 模型是否了解数字？探究嵌入中的数字能力

探讨了 NLP 模型对数字理解（数值能力）的处理方法，发现现有的模型在 DROP 数据集上表现优秀，并在合成的数字相关任务上检验了 BERT、GloVe 等词向量方法，发现字符级别的嵌入方式更加精确，ELMo pre-training 方法的准确性最好。

Sep, 2019

由语言模型发展而来的数据科学：从文科到数科

研究表明，大型语言模型在将读写能力转化为计算能力方面存在翻译难题，但通过对所描述的四个复杂数据集的统计分析，结合不能通过简单规则编码或记忆的算术操作，可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性回归预测海量数据的能力。

Jan, 2023

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

语言模型对数字的理解，至少在某种程度上

研究表明大型语言模型在理解和利用数字以及在数学问题上进行计算方面具有部分能力。

Jan, 2024

NumeroLogic：增强 LLMs 数值推理的数字编码

通过调整数字的表示方式，使用 NumeroLogic 格式，我们为语言模型处理数字数据和执行算术运算的困难提供了解决方法，并改进了自然语言理解性能。

Mar, 2024

克服语言模型中技能注入的障碍：以算术为例的案例研究

提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Nov, 2022

自然语言处理中的数值表示：调研与展望

综合分类了 NLP 中与数字相关的任务和方法，分析了 18 种数字编码器和解码器的多样性代表性选择和最佳实践，提出了在自然语言处理中实现整体数字能力的愿景，并明确了设计考虑和统一评估。

Mar, 2021

研究文本转换模型的数字学习能力

本文研究了基于转换器的预训练语言模型应用数字理解方面的能力。作者使用文本到文本的转移学习模型 T5，并考虑了数字编码、大小排序、查找数列中的最小和最大值、排序等四个任务。结果表明，虽然 T5 在内插设置下表现良好，但在所有四个任务的外推设置下仍然存在较大难度。

Sep, 2021

NumGPT：提升生成式预训练模型的数学能力

本文提出了 NumGPT，这是一种专门用于数学推理的预训练模型，其采用枚举法嵌入来明确地表示文本中的数字特性，并设计了一种数字感知的损失函数，该模型在评估数字能力时的结果表明，其在测量估计、数字比较、数学问题和数量分类等一系列数学推理任务上优于基线模型（如 GPT 和带 DICE 的 GPT）。

Sep, 2021

探索语言模型中的内部数理能力：ALBERT 的研究案例

该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据，并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析（PCA），我们提取这些模型用于表示数字和序数的令牌的学习嵌入，PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序，数字及其文本对应部分分别在不同的簇中表示，但在 2D 空间中沿着相同的方向增长。我们的发现表明，纯粹用于建模文本的语言模型可以理解基本的数学概念，为与定量推理交叉的 NLP 应用开辟了新的发展路径。

Apr, 2024