语言模型是否理解计量单位?
人类的数字系统和度量单位是两个相互关联的主题,它们与表达这些主题的语言有着相互影响。本文通过构建带有扰动的数据集,研究已有的大型语言模型在处理数字和度量单位时遇到的困难,从语言到数字的数字转换和基于单位的度量转换都是数学问题的不同子过程。实验表明,大型语言模型在处理数字和度量转换方面仍然存在困难。
Jun, 2024
本研究探讨了预训练语言模型在把握物体的标量数量方面的表现情况及其在常识推理中的不足,发现语言模型能够捕获相当数量的关于数量的信息,但性能受上下文信息和数字知识的影响,文中提出了一个简单的标准化数字的方法,具有显著的结果改进。
Oct, 2020
本文介绍了一个对预训练语言模型(PLMs)的普适语言能力进行大规模实证研究的 ElitePLM,并设计了四个评估维度来衡量十种广泛使用的 PLMs,包括记忆、理解、推理和组合。实验结果表明,PLMs 在不同的能力测试中表现出色;下游任务中的微调通常对数据大小和分布敏感;PLMs 在类似任务之间具有出色的可转移性,并且 PLMs 的预测结果在我们的实验中作为开放资源发布,以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择,应用和设计特定任务的 PLMs。
May, 2022
大型语言模型在知识获取和统计推理方面取得了稳定进展,但在常识推理任务中仍存在局限性,纯统计学习难以应对其中的组合爆炸问题,更大并不总是更好,而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。
Apr, 2024
探讨了 NLP 模型对数字理解(数值能力)的处理方法,发现现有的模型在 DROP 数据集上表现优秀,并在合成的数字相关任务上检验了 BERT、GloVe 等词向量方法,发现字符级别的嵌入方式更加精确,ELMo pre-training 方法的准确性最好。
Sep, 2019
提出一种信息论干预的新型框架,以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘,从而使语言模型在保留语言能力的同时也具备数学推理的能力。
Nov, 2022
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
近年来,在数学领域中,利用语言模型(LMs)取得了显著进展,本文从任务和方法论两个不同的角度对数学 LMs 进行了全面的调查和分类,揭示出大量的数学 LLMs 和超过 60 个数学数据集的应用和研究。
Dec, 2023
通过在大量数据集上进行多任务训练,我们展示了数值推理可以注入到预训练的语言模型中,使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练,我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美,同时在数学单词问题数据集上保持高性能,这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。
Apr, 2020