生成式大型语言模型中的概率推理

Feb, 2024

生成式大型语言模型中的概率推理

Probabilistic Reasoning in Generative Large Language Models

Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi

TL;DR本研究考虑了大型语言模型（LLMs）在推理涉及概率值明确量化的文本时面临的挑战。通过引入贝叶斯语言推理数据集（BLInD），我们详细说明了 LLMs 在涉及概率推理的任务中的限制，并提出了几种将问题映射到不同形式表示的策略。我们通过在 BLInD 上进行评估以及对因果推理问答数据集的适应性改编等实验证明了这些方法的实际效果。

Abstract

This paper considers the challenges that large language models (LLMs) face when reasoning over text that includes information involving uncertain

large language models reasoning uncertainty probabilistic reasoning blind dataset

发现论文，激发创造

基于大语言模型的概率图模型的语言表达

本文介绍了一种新颖的贝叶斯提示方法，通过使用一个语言大模型（LLMs）中的一个模糊概率图模型（PGM）来实现无需训练的贝叶斯推理。我们的模型在多个组合推理任务中取得了良好的效果，有效提升了置信度的引发和文本生成质量，显示出在模拟不确定性方面提高人工智能语言理解系统的潜力。

Jun, 2024

通过概率推理实现逻辑一致的语言模型

通过引入基于原则的概率推理训练目标，本研究改进了大型语言模型的逻辑一致性和新知识推理能力。

Apr, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

语言模型能进行概率推理的可能性

评估语言模型在概率推理能力上的表现，并通过使用理想化和真实统计分布的方式进行系统评估，包括估计百分位数、生成样本和计算概率等三个任务。我们发现，语言模型通过对分布进行推断，并结合真实世界的背景、示例和简化假设等方式可以提高推理能力。我们还开发了一个全面的基准分布数据集和相关的问题答案对，将其公开发布。

Jun, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

因果推理与大型语言模型：为因果关系开辟新领域

本文探讨了大型语言模型（LLMs）的因果能力，证明它们在因果推理方面具有优越性能和独特的知识来源。同时，我们提供了技术来解释它们的鲁棒性，并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此，LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。

Apr, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

大型语言模型理解逻辑还是仅仅模仿语境？

大型语言模型在逻辑推理和符号推理等复杂场景中表现出色，但其在理解逻辑规则上存在限制，本文通过反事实方法探讨了大型语言模型的推理能力，强调了加强机制以确保其可靠的逻辑推理的需求。

Feb, 2024

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024