语言模型的数值能力评估与提升
探讨了 NLP 模型对数字理解(数值能力)的处理方法,发现现有的模型在 DROP 数据集上表现优秀,并在合成的数字相关任务上检验了 BERT、GloVe 等词向量方法,发现字符级别的嵌入方式更加精确,ELMo pre-training 方法的准确性最好。
Sep, 2019
研究表明,大型语言模型在将读写能力转化为计算能力方面存在翻译难题,但通过对所描述的四个复杂数据集的统计分析,结合不能通过简单规则编码或记忆的算术操作,可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性回归预测海量数据的能力。
Jan, 2023
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
通过调整数字的表示方式,使用 NumeroLogic 格式,我们为语言模型处理数字数据和执行算术运算的困难提供了解决方法,并改进了自然语言理解性能。
Mar, 2024
提出一种信息论干预的新型框架,以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘,从而使语言模型在保留语言能力的同时也具备数学推理的能力。
Nov, 2022
综合分类了 NLP 中与数字相关的任务和方法,分析了 18 种数字编码器和解码器的多样性代表性选择和最佳实践,提出了在自然语言处理中实现整体数字能力的愿景,并明确了设计考虑和统一评估。
Mar, 2021
本文研究了基于转换器的预训练语言模型应用数字理解方面的能力。作者使用文本到文本的转移学习模型 T5,并考虑了数字编码、大小排序、查找数列中的最小和最大值、排序等四个任务。结果表明,虽然 T5 在内插设置下表现良好,但在所有四个任务的外推设置下仍然存在较大难度。
Sep, 2021
本文提出了 NumGPT,这是一种专门用于数学推理的预训练模型,其采用枚举法嵌入来明确地表示文本中的数字特性,并设计了一种数字感知的损失函数,该模型在评估数字能力时的结果表明,其在测量估计、数字比较、数学问题和数量分类等一系列数学推理任务上优于基线模型(如 GPT 和带 DICE 的 GPT)。
Sep, 2021
该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据,并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析(PCA),我们提取这些模型用于表示数字和序数的令牌的学习嵌入,PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序,数字及其文本对应部分分别在不同的簇中表示,但在 2D 空间中沿着相同的方向增长。我们的发现表明,纯粹用于建模文本的语言模型可以理解基本的数学概念,为与定量推理交叉的 NLP 应用开辟了新的发展路径。
Apr, 2024