大型语言模型的冗余信息推理能力分析

Oct, 2023

大型语言模型的冗余信息推理能力分析

Analysis of the Reasoning with Redundant Information Provided Ability of Large Language Models

Wenbei Xie

TL;DR最近在大规模语言模型 (LLMs) 的研究中取得了令人印象深刻的进展，尤其在推理方面，对于实现人工智能 (AGI) 至关重要。然而，常用的测试基准可能无法完全展现这些模型在现实场景中的推理能力。为了解决这一问题，引入了一种新形式的问答任务，称为 Reasoning with Redundant Information Provided (RRIP)。该研究设计了改进版本的小学数学 8K (GSM-8K) 数据集，它有几个变体，关注冗余信息的不同属性。在传统的问答任务和 RRIP 任务上，评估了两个流行的 LLMs，分别是 LlaMA2-13B-chat 和生成预训练转换器 3.5（GPT-3.5）。研究结果表明，尽管这些模型在标准问答基准中取得了一定的成功，但它们在 RRIP 任务上的表现明显下降。该研究不仅突出了当前 LLMs 在处理冗余信息方面的局限性，还建议未来训练这些模型时应将冗余信息纳入训练数据，以提高在 RRIP 任务上的性能。

Abstract

Recent advancements in large language models (LLMs) have demonstrated impressive capabilities across a range of natural language processing tasks, especially in reasoning, a cornerstone for achieving Artificial General Intelligence (AGI). However, commonly used benchmarks may not fully

large language models reasoning with redundant information provided (rrip)question-answering (qa) task inferential abilities performance evaluation

发现论文，激发创造

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了 LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上，并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外，LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子，有效提高 LLM 的逻辑推理能力，如 GPT-4 提高了 10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

REASONS: 使用公开和私有的大型语言模型进行科学句子的检索和自动引用

大型语言模型（LLM）是否能根据直接查询和间接查询在文档或报告中生成参考文献是智能分析、网络安全、新闻机构和教育人员至关重要的问题。本研究通过调查大型语言模型在生成参考文献任务中的表现，引入名为 REASONS 的大型数据集，以科学研究领域的 12 个最热门领域的摘要为基础，得出相关结论，并提供有关自动引文生成任务可靠性的有价值的见解。

May, 2024

信息重组改善大型语言模型推理能力

提出了一种信息重新组织（InfoRE）方法，通过在推理之前对上下文内容进行重新组织处理，从而增强了大型语言模型（LLMs）的推理能力。在各种上下文感知的多跳推理任务中，通过零射击设置，我们实验评估了该方法在 Llama2-70B、GPT-3.5 和 GPT-4 上的效果，平均改进了 3％，突显了它改善 LLMs 推理性能的潜力。

Apr, 2024

作为间接推理器的大型语言模型：自动推理的逆否和矛盾

本文提出了一种新的间接推理（IR）方法，利用逆否命题和矛盾的逻辑来解决事实推理和数学证明等 IR 任务，以加强大型语言模型（LLMs）的推理能力。与传统 DR 方法相比，我们的 IR 方法通过对话模板触发 LLMs 进行基于矛盾推论的 IR 过程来提高推理准确性，并且与 IR 或 DR 单独使用相比，IR 和 DR 结合的方法表现出更高的效果。

Feb, 2024

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024