LM2: 简约语言模型社区解决复杂推理

Apr, 2024

LM2: 简约语言模型社区解决复杂推理

$\texttt{LM}^\texttt{2}$: A Simple Society of Language Models Solves Complex Reasoning

Gurusha Juneja, Subhabrata Dutta, Tanmoy Chakraborty

TL;DR该研究提出了 LM2 模型，通过将问题分解为多个子问题并利用协调的语言模型进行求解和验证，以提高大型语言模型的复杂多步推理能力。

Abstract

Despite demonstrating emergent reasoning abilities, large language models (LLMS) often lose track of complex, multi-step reasoning. Existing studies show that providing guidance via decomposing the original quest

large language models reasoning abilities decomposition solution lm2

发现论文，激发创造

小语言模型微调以协调更大的语言模型，提升复杂推理

引入 DaSLaM，使用分解生成器将复杂问题分解为需要更少推理步骤的子问题，由求解器回答。我们的方法在多个不同推理数据集上进行评估，表明 1750 亿参数 LM（text-davinci-003）可以产生与规模更大的 GPT-4 相比具有竞争力甚至更好的性能。

Oct, 2023

Logic-LM: 使用符号求解器增强大型语言模型进行可靠的逻辑推理

Logic-LM 是一种将大型语言模型与符号推理相结合的框架，通过首先使用大型语言模型将自然语言问题转化为符号形式，然后进行确定性符号求解，以及自我精炼阶段来修正符号形式，在 ProofWriter、PrOntoQA、FOLIO 和 LogicalDeduction 等四个逻辑推理数据集上的结果表明，与仅使用大型语言模型相比，我们的方法可以显著提高逻辑推理的性能。

May, 2023

分而治之？您应该压缩 LLM 的哪个部分？

我们提出一种将问题分解为问题分解阶段和问题解决阶段的策略，并证明该策略能够优于单阶段解决方案。通过在结合问题解决 LLMs 的同时利用较小的问题分解模型，我们能够实现具有高效推理和局部适应性的推理。

Feb, 2024

将 LLM 的分解能力提取为简洁的语言模型

通过离线强化学习将大型语言模型（LLM）的分解能力融入紧凑模型，我们利用 LLM 能力的进步提供反馈并生成专门的任务特定数据集来训练紧凑模型，该研究的主要贡献是开发了一个 AI 生成的数据集和建立了基线，强调了紧凑模型在复制复杂问题解决能力方面的潜力。

Feb, 2024

迭代分解：通过监督推理过程提高科学问答

通过使用透明的中间状态进行复合会带来可解释性和安全性的好处，但可能需要工作流程支持和基础设施来保持竞争力，为此我们描述了一种人在循环中使用的对于开发和完善复合 LM 程序的工作流程，并开发了一个可视化 LM 程序执行跟踪的开源工具 - ICE，通过三个真实世界的案例将这一工作流程应用于 LM 程序，并比非组合基线提高了 LM 程序的准确性 - 描述随机对照试验中使用的安慰剂（25％到 65％），评估参与者遵守医疗干预（53％到 70％）以及在 Qasper 数据集上回答 NLP 问题（38％到 69％）。

Jan, 2023

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023

探究大型语言模型如何利用内部知识进行复杂推理

通过将复杂的现实世界问题分解成图形，将每个问题表示为一个节点，并使用具有解决问题所需背景知识的父节点来研究大型语言模型（LLMs）如何利用知识进行推理。使用分层图形，我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解，并提出了改进它们解决问题能力的方法。

Jun, 2024

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

现实中的爱丽丝奇境：显示顶尖大型语言模型完整推理过程的简单任务

大型语言模型在各种任务和条件中以零样本或零曝光的方式表现出色，但我们的研究发现在某些基本推理能力上表现出严重的缺陷，需要迅速重新评估当前一代 LLM 的所声称的能力，并创建新的标准评测以发现这些明显被当前评测方法忽视的基本推理缺陷。

Jun, 2024