语言建模的思维标记
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码 - 回归 - 解码机器。
Aug, 2023
最近大型语言模型(LLMs)因其执行复杂的推理任务的能力而引起了相当大的关注,但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法,而忽视了模型推理能力的结构方面。在我们的研究中,我们发现 LLMs 能够很好地处理个别的推理步骤,却在整个推理链上保持一致性方面遇到困难。为了解决这个问题,我们在每个推理步骤的开始引入了 “规划标记”,作为模型的指南。然后,这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道(仅占总参数的 0.001%),可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs,并对三个数学问题数据集进行了评估,展示了我们方法的有效性,相对于原始的链式思维微调基准,取得了显著的准确性提升。
Oct, 2023
本研究提出一个数学计算数据集 MATH 401,用于测试最新的大型语言模型(包括 GPT-4,ChatGPT 等)在解决数学单词问题时的算术能力,并提供了能力的详细分析。
Mar, 2023
提出一种信息论干预的新型框架,以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘,从而使语言模型在保留语言能力的同时也具备数学推理的能力。
Nov, 2022
大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强,而对单位数乘法可信准确预测的能力较差,但在给出正确的高位数字作为条件下,后者任务的可信准确预测能力可以大幅提升。
Jun, 2024
介绍了大型语言模型(LLMs)在移动健康感知等人类中心任务中的使用,并通过案例研究证明了目前流行的 LLMs 对于时间数据的分词处理存在错误,提出了解决方案如轻量级嵌入层调整和多模态适配器来弥合模态差异。该论文强调了语言模型在处理输入细微差别时无法产生有意义的输出。
Sep, 2023
我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM,通过将上下文翻译成时间图,教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益,并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理,观察到符号推理带来更一致可靠的结果。
Jan, 2024
本文研究了大型预训练语言模型在符号操作任务上的能力,发现其对于简单的符号操作任务如复制、反转、加法等存在局限,并提出了基于位置标记,细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示,这些方法均无法完全解决最简单的加法归纳问题。最后,介绍了一种带有辅导的 LMs,可以在 OOD 和重复符号的情况下实现 100%的准确性。
Aug, 2022
本研究探究如何将较小的语言模型与多步推理能力相结合,通过在合成数据集 MsAT 上进行持续的预训练,我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。
Jun, 2023