优化偏好链：改进 LLMs 中的思维链推理

Jun, 2024

优化偏好链：改进 LLMs 中的思维链推理

Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs

Xuan Zhang, Chao Du, Tianyu Pang, Qian Liu, Wei Gao...

TL;DR通过 fine-tuning LLMs，利用 tree-of-thought 方法构建的搜索树，实现了链式思考解码 (CoT) 在复杂问题求解中取得类似或更好性能的成果，避免了大量的推理负担。

Abstract

The recent development of chain-of-thought (CoT) decoding has enabled large language models (LLMs) to generate explicit logical reasoning paths for complex problem-solving. However, research indicates that these paths are not always deliberate and optimal. The tree-of-thought (ToT) method employs tree-searching to extensively explore the reasoning space and

chain-of-thought decoding tree-of-thought method inference complexity fine-tuning llms chain of preference optimization

发现论文，激发创造

关于 LLMs 的推理和规划经验复杂性的研究

通过进行实验案例研究并将结果与机器学习中的样本和计算复杂性联系起来，我们发现如果问题可以分解成一系列推理步骤，并且学习预测下一步具有较低的样本和计算复杂性，明确列出推理链与预测下一步所需的所有必要信息可能会改善性能，相反，对于计算复杂的问题，采用树状推理可能比尝试形成简短的推理链更好地产生推理结果。

Apr, 2024

DialCoT 满足 PPO：在较小的语言模型中进行推理路径的分解与探索

通过对话引导的思维链技术（DialCoT）在小型语言模型中有效提升推理能力，采用 PPO 算法优化模型的推理路径选择，实验结果显示与其他竞争方法相比显著提升性能。

Oct, 2023

带思维链的 LLMs 是非因果推理者

该研究探讨了大型语言模型中思维链（CoT）在推理中的作用，通过因果分析发现模型与人类推理过程之间存在差异，并揭示了模型中影响因果结构的因素。

Feb, 2024

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

大型语言模型中的思维过程图推理：超越思维链的有效方法

使用 T5 预训练模型实现了图形思维推理模型，提高了基于文本推理任务 GSM8K 的性能和面向多模态的推理任务 ScienceQA 的准确率，通过较少的骨干模型参数与基于 700M 参数的 Multimodal-CoT 模型获得相当的结果，探索了非线性思考的建模方法。

May, 2023

通过符号化推理保持逻辑的准确性

提出了一种基于大型语言模型的新型符号化思维链 (SymbCoT) 框架，通过将符号表达和逻辑规则与语言模型集成，以增强其逻辑推理能力，并在 5 个标准数据集上通过深入评估展示了显著的性能提升。

May, 2024

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

揭示思维链背后的谜团：理论视角

研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能，特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨，然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题，并且具有动态编程方面的潜在应用。

May, 2023

思维之树：利用大型语言模型进行有意识的问题解决

通过 Tree of Thoughts (ToT) 框架，可以弥补语言模型在考虑多种不同推理路径时的局限性，进而提高语言模型在需要问题解决的任务中的表现。实验表明，使用 ToT 的方法大大提高了语言模型在三个需要非平凡计划或搜索的任务的解决能力：24 点游戏、创意写作和小型填字游戏。

May, 2023

无需提示的逻辑链推理

大规模语言模型的推理能力可通过修改解码过程有效地引出连续推理路径，而不需要手动设计提示技术，这种具备内在推理能力的解码方法优于传统贪婪解码方式。

Feb, 2024