Dec, 2023

链式思维推理的潜在技能发现

TL;DR最近的大型语言模型 (LLMs) 的前进使得思维链 (CoT) 提醒的紧急能力增加,它是一种在问题和答案之间添加中间的合理步骤来构造提示的合理推理策略。在这些提示的条件下,LLMs 可以有效地学习上下文以生成比直接回答相同问题更准确的答案所需的合理性。为了设计 LLM 提示,有一个重要的设置,称为演示选择,它考虑从示例库中选择演示。现有的方法使用各种启发式方法进行选择,但对于涉及独特合理性的 CoT 提示而言,基于 CoT 合理性所需的固有技能进行选择至关重要,例如数学问题的加减法技能。为了解决这个要求,我们介绍了一种称为 “推理技能发现”(RSD)的新方法,它使用无监督学习创建合理性的潜在空间表示,称为推理技能。同时,RSD 学习一个推理策略来确定给定问题所需的推理技能。这可以指导演示所需的推理技能的选择。我们的方法具有几个理想的特性:它在理论上是有依据的,它需要较少的样本,不需要 LLM 推断或手动提示设计,且与 LLM 无关。从经验上看,RSD 在多个推理任务中的答案准确性方面优于现有方法多达 6%。