通过潜变量推断训练思维链

Nov, 2023

Training Chain-of-Thought via Latent-Variable Inference

Du Phan, Matthew D. Hoffman, David Dohan, Sholto Douglas, Tuan Anh Le...

TL;DR大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Abstract

large language models (LLMs) solve problems more accurately and interpretably when instructed to work out the answer step by step using a ``chain-of-thought'' (CoT) prompt. One can also improve LLMs' performance on a specific task by →

large language models chain-of-thought prompt supervised fine-tuning marginal log-likelihood markov-chain monte carlo algorithm

发现论文，激发创造

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

在大型语言模型中通过迭代引导提高思维链路提示

通过使用迭代的引导选择，我们介绍了迭代链式思考（Iter-CoT）方法，该方法可以使大型语言模型（LLM）自主纠正错误，同时选择具有适度难度的挑战性问题作为样本，从而增强 LLM 对于不同难度的推理任务的泛化能力。实验结果表明 Iter-CoT 方法在 11 个数据集上展现出卓越的性能表现。

Apr, 2023

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

CoF-CoT：面向多域 NLU 任务的粗到细思维链路提示技术增强大型语言模型

我们提出了一种粗细链式思维（CoF-CoT）方法，将自然语言理解任务分解为多个推理步骤，以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念，并利用基于语义的抽象意义表示（AMR）结构化知识作为中间步骤，捕捉话语的细微差别和多样性结构，并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下，证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。

Oct, 2023

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

思维之阶梯：利用知识提升立场检测

通过引入 Ladder-of-Thought (LoT) 来改进 ChatGPT 和 CoT 模型，在提高中间推理过程和使用外部知识的基础上，在立场检测任务中实现了 16% 的改进。

Aug, 2023

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为，以提高 CoT 推理的准确性，然而我们的实证分析表明：这些方法在提高 CoT 推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023