深思专家的混合（MoTE）：思维链和专家混合在自我对齐中的协同作用

May, 2024

深思专家的混合（MoTE）：思维链和专家混合在自我对齐中的协同作用

Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

Zhili Liu, Yunhao Gou, Kai Chen, Lanqing Hong, Jiahui Gao...

TL;DR使用 Chain of Thought（CoT）方法，并结合 Mixture of insighTful Experts（MoTE）体系结构，提出了一种新颖的自我对齐方法，以改善大语言模型和人类价值之间的对齐问题，显著提高对齐效率。

Abstract

As the capabilities of large language models (LLMs) have expanded dramatically, aligning these models with human values presents a significant challenge, posing potential risks during deployment. Traditional

large language models alignment human values self-alignment mote architecture

发现论文，激发创造

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

验证和编辑：一种知识增强的思维链框架

本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架，通过使用外部知识来编辑推理链以提高其准确性，改善了大语言模型中存在的缺陷，实现了在多个开放型问题回答任务中的准确度提升。

May, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

思维之阶梯：利用知识提升立场检测

通过引入 Ladder-of-Thought (LoT) 来改进 ChatGPT 和 CoT 模型，在提高中间推理过程和使用外部知识的基础上，在立场检测任务中实现了 16% 的改进。

Aug, 2023

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

CodeCoT 及其进展：学习像开发者一样编程和测试

采用自我审查和连续推导的方法，我们提出了一种名为 Code Chain-of-Thought（CodeCoT）的新策略，通过辅助 LLM 模型生成代码和改进输出，从而显著提高了代码生成的准确性。

Aug, 2023

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

揭示思维链背后的谜团：理论视角

研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能，特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨，然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题，并且具有动态编程方面的潜在应用。

May, 2023

CoF-CoT：面向多域 NLU 任务的粗到细思维链路提示技术增强大型语言模型

我们提出了一种粗细链式思维（CoF-CoT）方法，将自然语言理解任务分解为多个推理步骤，以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念，并利用基于语义的抽象意义表示（AMR）结构化知识作为中间步骤，捕捉话语的细微差别和多样性结构，并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下，证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。

Oct, 2023

通过思维树增强跨语言多步推理

本研究通过一种自洽的跨语言提示机制，提出了一种跨语言多步推理方法，可以在不同语言中实现多步推理路径，从而达到解决复杂推理任务的目的，并在实验评估中表现出比现有提示方法更优的性能。

Nov, 2023