信息重组改善大型语言模型推理能力
通过动态上下文编辑的方式,我们引入了一种新的方法,将信息检索重新设想,使长文本上下文成为可塑的外部知识,并通过与最新的知识编辑技术相结合,与有关信息进行交互式收集和整合,从而使大型语言模型能够进行复杂的推理步骤,有效增强了推理能力。
Jun, 2024
通过重新阅读问题信息嵌入在提示中,我们提出了一种似乎简单但非常有效的提示策略,称为 “问题重新阅读”,该方法与认知增强的原理相一致,使得大型语言模型能够提取更深入的见解,识别复杂的模式,建立更细致的联系,从而增强其在各种任务中的推理能力。
Sep, 2023
本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法,借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识,从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。
Dec, 2022
通过提出一种召回 - 检索 - 推理关系抽取框架,将大型语言模型与检索语料库相结合,从而使语言模型能够在上下文中进行可靠的推理,以提高关系抽取的性能。
Apr, 2024
最近在大规模语言模型 (LLMs) 的研究中取得了令人印象深刻的进展,尤其在推理方面,对于实现人工智能 (AGI) 至关重要。然而,常用的测试基准可能无法完全展现这些模型在现实场景中的推理能力。为了解决这一问题,引入了一种新形式的问答任务,称为 Reasoning with Redundant Information Provided (RRIP)。该研究设计了改进版本的小学数学 8K (GSM-8K) 数据集,它有几个变体,关注冗余信息的不同属性。在传统的问答任务和 RRIP 任务上,评估了两个流行的 LLMs,分别是 LlaMA2-13B-chat 和生成预训练转换器 3.5(GPT-3.5)。研究结果表明,尽管这些模型在标准问答基准中取得了一定的成功,但它们在 RRIP 任务上的表现明显下降。该研究不仅突出了当前 LLMs 在处理冗余信息方面的局限性,还建议未来训练这些模型时应将冗余信息纳入训练数据,以提高在 RRIP 任务上的性能。
Oct, 2023
本文研究了大型语言模型 LLMs 的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在 LLMs 的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究 LLMs 的推理机制。
May, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
构建和利用语义结构的多跳问题回答框架,通过神经模型和连续思维机制提高推理能力,并结合信息抽取和提取的语义结构实现更准确和可解释的问题回答。
Nov, 2023