面向多步推理的小语言模型特化
大型语言模型可以通过为其预测生成理由来解决复杂的推理任务。通过将这些功能融入到较小、紧凑的模型中,可以促进为特定任务量身定制的专门、经济高效的模型的创建。然而,较小的模型在复杂的推理任务中常常面临挑战,并且通常会偏离正确的推理路径。我们发现,只有在恰当的时机介入,大型语言模型才能指导较小的模型并将它们带回正确的推理路径。我们发现,较小的模型在推理方面主要因为难以启动过程而失败,引导它们朝正确的方向发展可以使性能提高 100% 以上。我们探索不同的模型大小并评估提供指导以改善较小模型推理能力的益处。
Nov, 2023
该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于 LLMs 推理能力的夸张的说法,并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。
Jun, 2022
本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型,实现任务的表现提升,对算术、常识和符号推理数据集效果显著,例如在 PaLM-540B 生成的思考链上进行微调后,T5 XXL 在 GSM8K 的准确率从 8.11%提高至 21.99%。
Dec, 2022
本研究探究如何将较小的语言模型与多步推理能力相结合,通过在合成数据集 MsAT 上进行持续的预训练,我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。
Jun, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
通过构建特定于代理的数据和有监督微调模型,以及设计有效激活大型语言模型推理能力的提示方法,我们提出了一种综合的方法来提高大型语言模型作为代理的性能,并通过在 AgentBench 的五个代理任务上的评估取得了令人满意的结果。
Mar, 2024
本研究探讨大型语言模型在自然语言推理任务上的表现。通过使用少量样本指导大型语言模型进行任务适应,以及可应用于多个任务的可重用的知识模块,结合逻辑形式输入的答案程序,实现了在多项 NLP 基准测试上的最新性能,包括 bAbI,StepGame,CLUTRR 和 gSCAN,并成功解决了机器人规划任务,而大型语言模型单独无法解决。
Jul, 2023
通过构建 COmmand-STeps(COST)数据集,我们比较了 GPT3.5 和 GPT4 与 finetuned GPT2 在桌面和厨房环境中的任务规划表现,结果表明 GPT2-medium 在特定领域的任务规划上与 GPT3.5 相当。
Apr, 2024
在这篇论文中,我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法(称为机械化探测器),从模型的注意力模式中恢复推理树,用于分析两个语言模型:GPT-2 在一个合成任务(第 k 个最小元素)上以及 LLaMA 在两个简单的基于语言的推理任务(ProofWriter 和 AI2 推理挑战)上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息,这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。
Oct, 2023