思维链预测控制

Apr, 2023

Chain-of-Thought Predictive Control

Zhiwei Jia, Fangchen Liu, Vineet Thumuluri, Linghao Chen, Zhiao Huang...

TL;DR该论文研究了从示范中学习复杂低级控制任务的泛化策略学习，并提出一种新颖有效的方法，将时间抽象和具有规划能力的层次强化学习与模仿学习相结合，基于决策基础模型，利用可扩展的演示来学习具有一致性和结构化的长期行动指导，从而提高了低级操纵任务的性能。

Abstract

We study generalizable policy learning from demonstrations for complex low-level control tasks (e.g., contact-rich object manipulations). We propose an →

policy learning demonstrations imitation learning temporal abstraction hierarchical rl

发现论文，激发创造

思维的连锁：计划中 CoT 的分析

根据 Blocksworld 的案例研究，通过链式思维问题可以提高大型语言模型的性能，但需要高度问题特定的提示，并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。

May, 2024

基于视图的 Hopfield 解释的思维链推理

通过分析在不同设置下的 CoT 方法，从 Hopfieldian 视角提出了 Read-and-Control 方法，通过广泛实验验证了该框架对于理解 CoT、识别推理错误和控制正确推理路径的能力。

Jun, 2024

大型语言模型中的模式感知思维链激励

链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验，结果表明我们的方法大大提高了推理性能，并且对错误表现出鲁棒性。代码将公开提供。

Apr, 2024

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

DialCoT 满足 PPO：在较小的语言模型中进行推理路径的分解与探索

通过对话引导的思维链技术（DialCoT）在小型语言模型中有效提升推理能力，采用 PPO 算法优化模型的推理路径选择，实验结果显示与其他竞争方法相比显著提升性能。

Oct, 2023

DriveCoT：将思维链推理与端到端驾驶相结合

在本文中，我们收集了一个全面的端到端驾驶数据集，名为 DriveCoT，利用 CARLA 模拟器，通过传感器数据、控制决策和思维过程标签来指示推理过程。我们利用 CARLA 2.0 榜单中的具有挑战性的驾驶场景，提出了一种基于规则的专家策略来控制汽车并生成推理过程和最终决策的真实标签。此数据集可作为一个开环端到端驾驶基准，评估各种思维链路的准确性和最终决策。此外，我们提出了一个名为 DriveCoT-Agent 的基线模型，通过我们的数据集进行训练，来生成思维链路预测和最终决策。训练好的模型在开环和闭环评估中表现出很强的性能，证明了我们提出的数据集的有效性。

Mar, 2024

揭示思维链背后的谜团：理论视角

研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能，特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨，然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题，并且具有动态编程方面的潜在应用。

May, 2023

通过直接两两比较方法生成思维链条以搜索最有希望的中间思想

提出了一种基于比较的链式思考生成算法，通过直接利用语言模型的嘈杂反馈，识别最有前景的思考，从而提高大型语言模型在处理复杂推理问题时的能力。

Feb, 2024

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

使用标记数据的思维链自动提示增强与选择

本文提出了一种使用 Automate-CoT 自动扩展和选择合理链来推动 CoT 的方法，该方法通过构建候选池从标签生成的机器理性链中选择多个理性链的最佳组合，以推进大型语言模型的推理能力，并在算术推理、常识推理、符号推理和非推理任务中取得了最先进的结果。

Feb, 2023