使用语言模型从数学问题中生成 Prolog 谓词

Sep, 2023

使用语言模型从数学问题中生成 Prolog 谓词

Exploring an LM to generate Prolog Predicates from Mathematics Questions

Xiaocheng Yang, Yik-Cheung Tam

TL;DR最近，ChatGPT 在 NLP 领域引起了广泛关注。ChatGPT 是一种基于 Transformer 的大规模生成式语言模型，在自然语言处理的各种任务中表现出多样性。然而，大型语言模型在解决需要推理能力的数学问题时往往表现较差。先前的研究表明，借助思维链提示可以增强推理能力。现在，我们旨在探讨是否通过对生成 Prolog 代码进行微调，进而将这些代码传递给编译器可以进一步提高准确性。结果显示，Prolog 生成模型在性能上超过了基准模型，而组合生成模型并未显著提高。基于 GSM8K 的 Prolog 语料库和相应微调的基于 LLaMA7B 的 Prolog 生成模型已经发布给研究社区。

Abstract

Recently, there has been a surge in interest in nlp driven by chatgpt. chatgpt, a transformer-based generative language model of substanti

nlp chatgpt reasoning capabilities prolog code generation llama7b

发现论文，激发创造

LLM 中的算术推理：Prolog 生成与排列

使用大型语言模型来生成 Prolog 程序以解决数学问题，在 GSM8K 基准测试中，我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合，以通过数据增强方法来增加训练的健壮性。

May, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

大型语言模型为何能生成准确的思路连贯？

本文研究了大型语言模型（LLMs）的能力，特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导 LLMs 生成连贯的思维链条。为实现此目标，我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下，我们建立了一个具有吸引力的几何收敛率，用于衡量 LLMs 生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为 LLMs 能够产生正确的思维序列提供了理论上的证明（潜在地）解释了在需要推理技能的任务中性能提升的原因。

Oct, 2023

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

链式思考引导大型语言模型推理

通过 chain of thought prompting 方法，在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能，甚至超过 fine-tuned GPT-3。

Jan, 2022

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

教授小型语言模型推理

本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型，实现任务的表现提升，对算术、常识和符号推理数据集效果显著，例如在 PaLM-540B 生成的思考链上进行微调后，T5 XXL 在 GSM8K 的准确率从 8.11％提高至 21.99％。

Dec, 2022

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分，结果显示 Llama-7b 表现最差，均方误差最高，而 ChatGPT 表现出色，科恩卡帕分数达到 0.53。此外，所选模型均优先考虑用户隐私，允许用户删除自己进行的会话。

Sep, 2023

基于心理学的思路链引导大型语言模型理解隐喻

本文使用思维导向提示将概率模型结构引入了大型语言模型的上下文学习中，以推断潜在变量并选择合适的隐喻释义，从而改进了模型的模仿能力。

Sep, 2022

迭代式提示预训练语言模型进行思维链构建

本研究探索了一个迭代提示框架，用于让预训练语言模型具有多步推理能力，我们提出了一种基于上下文的迭代提示器，可以动态地合成提示，以捕捉不同推理步骤之间的变化。实验证明，该方法在多步推理方面具有很好的效果。

Mar, 2022