后语义思维:从大规模语言模型中提炼推理能力的强大策略
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
预训练语言模型(PLMs)通过启发式分析和分析性推理链条的策略,改善了模型决策的连贯性,并且在物理常识推理方面取得了最先进的结果,进一步表明人类类推理策略可以有效提高 PLM 的决策连贯性和可靠性。
Oct, 2023
提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的 CoT 解释。
May, 2023
本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型,实现任务的表现提升,对算术、常识和符号推理数据集效果显著,例如在 PaLM-540B 生成的思考链上进行微调后,T5 XXL 在 GSM8K 的准确率从 8.11%提高至 21.99%。
Dec, 2022
最近的大型语言模型 (LLMs) 的前进使得思维链 (CoT) 提醒的紧急能力增加,它是一种在问题和答案之间添加中间的合理步骤来构造提示的合理推理策略。在这些提示的条件下,LLMs 可以有效地学习上下文以生成比直接回答相同问题更准确的答案所需的合理性。为了设计 LLM 提示,有一个重要的设置,称为演示选择,它考虑从示例库中选择演示。现有的方法使用各种启发式方法进行选择,但对于涉及独特合理性的 CoT 提示而言,基于 CoT 合理性所需的固有技能进行选择至关重要,例如数学问题的加减法技能。为了解决这个要求,我们介绍了一种称为 “推理技能发现”(RSD)的新方法,它使用无监督学习创建合理性的潜在空间表示,称为推理技能。同时,RSD 学习一个推理策略来确定给定问题所需的推理技能。这可以指导演示所需的推理技能的选择。我们的方法具有几个理想的特性:它在理论上是有依据的,它需要较少的样本,不需要 LLM 推断或手动提示设计,且与 LLM 无关。从经验上看,RSD 在多个推理任务中的答案准确性方面优于现有方法多达 6%。
Dec, 2023
通过对大型语言模型的内部机制进行机械性探索,我们发现大型语言模型在连续思考生成上部署多个并行路径,产生了顺序答案,并观察到模型中的功能分层差异,这是对连续思考推理进行机械性研究的首次尝试。
Feb, 2024
本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法,在巨大的语言模型的注释和参数的指导下,训练参数远低于 50B 的较小模型,在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。
Jun, 2023
通过对推理链和性能的关系的研究,我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE,该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分(PDS)框架,充分利用多个推理链的信息,相比答案检查基准线,平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1%。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。
Feb, 2024
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成,我们在 4 种不同类型的推理任务上评估了我们的方法,涵盖了共计 9 个不同的数据集。实验证明,我们的方法始终优于基准生成,并且在 9 个数据集中的 6 个数据集中,优于最佳的 N 个采样方法。
Apr, 2024