FRoG：对大型语言模型中广义量词的模糊推理进行评估

Jul, 2024

FRoG：对大型语言模型中广义量词的模糊推理进行评估

FRoG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models

Yiyuan Li, Shichao Sun, Pengfei Liu

TL;DR模糊推理在日常环境中对于使用不精确信息至关重要，本文引入了一个新的基准 FRoG，用于对模糊推理进行评估，实验结果表明大型语言模型在处理模糊推理方面仍面临重大挑战，并且现有的增强推理方法在涉及模糊逻辑的任务中并不一致地提高性能。此外，我们的结果显示了大型语言模型在 FRoG 上的逆比例缩放效应，有趣的是，我们还证明了强大的数学推理技能并不一定意味着在我们的基准测试中取得成功。

Abstract

fuzzy reasoning is vital due to the frequent use of imprecise information in daily contexts. However, the ability of current large language models (LLMs) to handle such reasoning remains largely uncharted. In thi

fuzzy reasoning large language models frog benchmark mathematical word problems generalized quantifiers

发现论文，激发创造

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

由谬误而推理：通过逻辑谬误理解增强大型语言模型的逻辑推理

大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能，但在某些复杂推理任务，特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU)，我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务，我们成功构建了一个新的基于 GPT-4 的数据集 LFUD，只需少量人工参与。我们的广泛实验证明，我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力，还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。

Apr, 2024

GLoRE：评估大型语言模型的逻辑推理能力

该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估，提出了一个名为 GLoRE 的评估基准，包含 12 个数据集，通过实验证明了 ChatGPT 和 GPT-4 在逻辑推理方面的强大能力，并提出了改进方法，发布了数据集和评估程序以促进未来的研究。

Oct, 2023

广义量词作为多语言 NLU 基准测试中的误差来源

本文探讨自然语言理解模型处理量词单词的困难性，并基于广义量化器理论提出了一种语言无关的表示方法来解决这一问题。研究发现，与性能降低相关的频繁发生在自然语言理解基准测试中。同时，这篇文章还提出了对抗广义量化器的 NLI 任务（GQNLI），并发现预训练的语言模型对广义量化器推理缺乏鲁棒性。

Apr, 2022

透过解决推翻实现自然语言的具有普适性和精确性逻辑推理

提出了一种名为 GFaiR 的新框架，它引入了分辨解证法的范式，以解决现有大型语言模型在自然语言中表达的形式逻辑理论推理问题上的理论不完备性问题。实验证明，在复杂情境下，我们的系统表现出卓越的性能，同时在简单情境中保持着良好的性能，且 GFaiR 对其推理过程忠实可靠。

Apr, 2024

图上推理：忠实且可解释的大型语言模型推理

本论文提出了一种理论上基于知识图谱的新方法 —— 图推理（RoG），该方法通过将大型语言模型（LLMs）与知识图谱（KGs）相结合，实现了忠实和可解释的推理，实验结果表明 RoG 在 KG 推理任务上取得了最先进的性能。

Oct, 2023

有意义的学习：通过通用事实指导提升大型语言模型的抽象推理能力

我们设计了一个初步的研究，以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示，我们的方法不仅提高了大型语言模型的一般推理性能，而且在抽象推理能力方面取得了可观的进展，从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。

Mar, 2024

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023