推理的流程：具有发散思维的 LLM 策略的高效训练

Jun, 2024

推理的流程：具有发散思维的 LLM 策略的高效训练

Flow of Reasoning: Efficient Training of LLM Policy with Divergent Thinking

Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin

TL;DR通过 Flow of Reasoning（FoR）这一高效的 LLM 训练方法，能够在很少的训练数据的情况下，发现多样化高质量的解决方案，并且在三项任务中（包括具身化推理、数学谜题解决和逻辑推理）显著超越当前最先进的方法。

Abstract

divergent thinking, the cognitive process of generating diverse solutions, is a hallmark of human creativity and problem-solving. For machines, sampling diverse solution trajectories in complex reasoning problems

divergent thinking large language models flow of reasoning reasoning limited training data

发现论文，激发创造

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

通过轨迹收集和过程奖励合成学习基于规划的推理

通过直接优化收集到的经验轨迹，我们提出一个基于规划的推理学习框架，以解决大型语言模型在复杂推理任务中出现的问题，并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。

Feb, 2024

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

大型语言模型的思维多样性提高推理能力

通过改变输入提示的多样性，并借助多种演绎方法，我们提出的 DIV-SE 和 IDIV-SE 方法在不改变解码过程的前提下，通过多种推理调用和单次推理调用中的多样提示，在固定生成预算的情况下，在多个推理基准和最新的计划基准上，优于现有基线，并在最有挑战的 4/5 Blocksworld 任务上超过先前报告的最高准确率至少 29.6 个百分点，从而改进了 LLM 推理的准确性 - 成本权衡的帕累托前沿。

Oct, 2023

优化大型语言模型中的逻辑推理以促进法律应用

通过强化学习与逻辑反馈，加强语言模型在逻辑推理方面的能力，为处理复杂法律推理任务的大型语言模型的发展提供新的研究途径，并承认了语言与逻辑之间的基本联系。

Nov, 2023

LLMs 中的分布式推理：多跳推理中的并行推理过程

大型语言模型具有出色的能力来执行需要思考过程的任务，本研究引入了一种新颖且可解释的分析方法，探讨了大型语言模型内部的多跳推理过程，揭示了模型通过简单线性变换来建模组合推理问题的预测过程，并且发现网络的中间层生成高度可解释的嵌入，代表了多跳问题的一组潜在中间答案，这些观察结果揭示了平行推理路径的存在，即使模型缺少解决任务所需的知识，这些结果有助于揭示大型语言模型解决推理任务的策略，并提供了人工智能所能产生的思维过程类型的见解，最后还讨论了认知建模的这些结果的含义。

Jun, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

混合思维树：快速思考与缓慢思考相结合的多跳视觉推理

利用大型语言模型（LLM）生成类似代码的计划来进行复杂推理任务，提出一种集成单次推理和思维树的层次化计划搜索算法，平衡效率和性能需求，在多跳视觉推理任务方面表现出优越性能和效率。

Aug, 2023

计划、验证和切换：多样思维的集成推理

通过多样化的推理思路，XoT 提供了一个集成的解决问题框架，可以在数学推理任务中有效地选择最合适的方法，并动态地切换不同的提示方法。

Oct, 2023

大型语言模型与具备心智理论的智能体相距多远？

人类可以从观察中推断他人的心理状态，然后从实用角度出发对这些推断进行干预。针对大型语言模型（LLMs）的新的评估范式 ——Thinking for Doing（T4D）要求模型将对他人心理状态的推断与社交情境中的行动联系起来。我们提出了一种零样本提示框架 ——Foresee and Reflect（FaR），该框架能够鼓励 LLMs 预测未来的挑战并合理推断潜在行动，从而提高 GPT-4 在 T4D 上的性能。

Oct, 2023