基于 Transformer 的语言模型的多语言数字理解探究
该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据,并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析(PCA),我们提取这些模型用于表示数字和序数的令牌的学习嵌入,PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序,数字及其文本对应部分分别在不同的簇中表示,但在 2D 空间中沿着相同的方向增长。我们的发现表明,纯粹用于建模文本的语言模型可以理解基本的数学概念,为与定量推理交叉的 NLP 应用开辟了新的发展路径。
Apr, 2024
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
通过在大量数据集上进行多任务训练,我们展示了数值推理可以注入到预训练的语言模型中,使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练,我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美,同时在数学单词问题数据集上保持高性能,这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。
Apr, 2020
本文研究如何通过分解数字来提高 Transformer 语言模型执行算术运算的准确性,称之为 “Calculon”,并将其与 GPT-3 在加减乘三个运算任务上进行了对比,结果表明在五位数加法任务上,Calculon 的准确率提高了 63%。
Apr, 2023
通过包含 1,500 个测试案例的评估,我们在英语中全面评估了大型语言模型(LLMs)在推理组合关系方面的能力,旨在了解 LLMs 处理不同语言环境下的组合关系推理的鲁棒性和适应性。
Mar, 2024
本文提出了一种利用锚定数字来诱发和利用预先训练的语言模型潜在的数字推理知识的新方法,通过在复杂的数字上应用简单的锚定数字隐含的推理表达式,以显式地得到相应的答案并训练语言模型的数字推理能力。实验结果表明该方法显著提高了现有语言模型的数字推理能力。
Oct, 2022
大型语言模型在数学推理方面研究了系统组合性,通过引入精心设计的逻辑漏洞陷阱构建了一个新的数据集 MathTrap,发现虽然大型语言模型具备所需知识的两个组成部分,但它们不会自发地组合起来处理这些新问题,通过自然语言提示、少示范演示和微调等多种方法可以减轻这种缺陷,但系统的组合性仍然是大型语言模型面临的一个未解决挑战。
May, 2024
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
提出了一种新的推理感知预训练方法,使用对比学习将另一种数字表示形式纳入预训练模型,通过基于推理的数字预测任务训练来提高其数值推理能力,实验结果表明该方法在需要数值推理的任务上能够提高准确性,并且人类评估显示该方法能够提高数据集上的事实正确性。
May, 2022