思维链中枢:评估大型语言模型推理性能的持续努力
ThoughtSource 是一个 meta-dataset 和软件库,用于处理语言模型在复杂推理方面的局限性,旨在提高未来人工智能系统的质量,通过促进 CoT 的定性理解,实现经验评估并提供培训数据。
Jan, 2023
本文研究了大型语言模型(LLMs)的能力,特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导 LLMs 生成连贯的思维链条。为实现此目标,我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下,我们建立了一个具有吸引力的几何收敛率,用于衡量 LLMs 生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为 LLMs 能够产生正确的思维序列提供了理论上的证明(潜在地)解释了在需要推理技能的任务中性能提升的原因。
Oct, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成,我们在 4 种不同类型的推理任务上评估了我们的方法,涵盖了共计 9 个不同的数据集。实验证明,我们的方法始终优于基准生成,并且在 9 个数据集中的 6 个数据集中,优于最佳的 N 个采样方法。
Apr, 2024
通过构建 LLM 级联模型来实现节约成本,特别是在推理任务中的使用,通过应用弱一些但更便宜的 LLM 来解决简单问题,只有复杂问题才需要更强大且更昂贵的 LLM,实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度,并提出了几种答案采样和一致性检查的方法,其中有一个利用了两种思考表示(Chain-of-Thought 和 Program-of-Thought)的混合方法,在六个推理基准数据集上的实验证明,我们的 LLM 级联模型可以达到与单独使用更强大的 LLM 相当的性能,但仅需 40% 的成本。
Oct, 2023
大语言模型领域缺乏描述、比较和改进的数学框架,因此我们提出了 Hex 框架,该框架可以清晰地描述大语言模型研究中的关键术语和概念,如幻觉、对齐、自我验证和思考链。该框架为表征大语言模型、识别其优势和劣势以及整合新发现提供了精确和一致的方法。我们利用 Hex 将思考链推理与思考链提示区分开,并确定了它们等价的条件。这一区分澄清了思考链提示背后的基本假设及其对使用它的方法(如自我验证和提示编程)的影响。我们的目标是为大语言模型提供形式化框架,以帮助研究人员和从业者探索生成型人工智能的新可能性。我们并不声称拥有终极解决方案,而是提供了一个开启新研究方向的工具。我们认为,我们的形式定义和结果对于推动如何构建安全、可靠、公正和健壮的生成型人工智能系统的讨论至关重要,尤其是在医疗保健和软件工程等领域。
Nov, 2023
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
我们提出了《Algorithm of Thoughts》,这是一种新的通过算法推动大型语言模型的算法推理路径的策略,以在上下文学习中扩展其思路探索,并超越了早期单查询方法和最近的多查询策略。
Aug, 2023
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024