无回归估计数字

ACLOct, 2023

Estimating Numbers without Regression

Avijit Thawani, Jay Pujara, Ashwin Kalyan

TL;DR改变语言模型的词汇表，而不是架构，可以更好地处理数字；在预测掩码数字和数值事实估计方面具有相似的性能，这要归功于仔细设计的标记化方案。

Abstract

Despite recent successes in language models, their ability to represent numbers is insufficient. Humans conceptualize numbers based on the

发现论文，激发创造

综合分类了 NLP 中与数字相关的任务和方法，分析了 18 种数字编码器和解码器的多样性代表性选择和最佳实践，提出了在自然语言处理中实现整体数字能力的愿景，并明确了设计考虑和统一评估。

Mar, 2021

研究表明大型语言模型在理解和利用数字以及在数学问题上进行计算方面具有部分能力。

Jan, 2024

本研究探索数学先验的使用，通过计算聚合的数字嵌入，将其明确地融入到转换器模型中，并通过添加特殊标记或引入附加损失函数来实现。我们评估了这种明确聚合的有效性，分析了其优势和不足，并讨论了更好地从这种方法中受益的未来方向。我们的方法虽然简单，但与任何预训练模型兼容，只需要几行代码，并已公开可用。

Jul, 2024

提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Nov, 2022

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

探索用语言模型建模数字的不同策略，提出使用连续概率密度函数来建模开放词汇中数字的新型神经架构，并在临床和科学数据集上进行评估表明使用分层模型可显著提高困惑度指标，连续概率密度函数模型相较于其他策略可分别将平均绝对百分比误差降低 18％和 54％。

May, 2018

通过生成受语料库中数字分布控制的锚点，我们引入了一种在任何语料库中语义化编码数字的策略，从而能够提供这些数字标记的数学基础表示。通过对一系列涉及从 1 到 10 亿的数字的数学任务的评估，我们证明了我们提出的技术的优越性，并展示了我们所学嵌入的数学基础的显著改进。

Apr, 2024

数字分词选择对算术任务模型效果产生显著影响；使用从右到左的分词方式能够明显提升性能，并显示出模型计算具有系统性；针对左到右分词方向模型的错误模式进行了深入分析，发现模型能够轻松转换分词方式

Feb, 2024

本研究利用最先进的自然语言处理模型及其分类能力，将数字分类为实体，从而使 NLP 模型在多项任务中具备更好的表现，超越了 BERT 和 RoBERTa 的基线分类结果。

May, 2022

本文提出了一种利用锚定数字来诱发和利用预先训练的语言模型潜在的数字推理知识的新方法，通过在复杂的数字上应用简单的锚定数字隐含的推理表达式，以显式地得到相应的答案并训练语言模型的数字推理能力。实验结果表明该方法显著提高了现有语言模型的数字推理能力。

Oct, 2022