大型语言模型的元推理

Jun, 2024

Meta Reasoning for Large Language Models

Peizhong Gao, Ao Xie, Shaoguang Mao, Wenshan Wu, Yan Xia...

TL;DRMeta-Reasoning Prompting（MRP）是一种受人类元推理启发的用于大型语言模型（LLMs）的新型高效系统提示方法，通过动态选择和应用不同的推理方法来优化性能和计算效率，实现了在不同任务中达到或接近最先进性能的结果。

Abstract

We introduce meta-reasoning prompting (MRP), a novel and efficient system prompting method for large language models (LLMs) inspired by human meta-reasoning. Traditional in-context learning-based reasoning techni

meta-reasoning prompting large language models reasoning methods state-of-the-art performance task input cues

发现论文，激发创造

元认知提示提高大型语言模型的理解能力

通过使用元认知提示，通过系统性的结构化、自我意识评估，结合大量内在的知识和新的认识，可以提高大型语言模型的理解能力。实验结果表明，元认知提示始终优于现有的提示方法，并通过提高 GPT-4 的性能水平，增强了 GPT-4 在各种自然语言理解任务中的表现。

Aug, 2023

对话式语言模型的推理即世界模型的规划

本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP，利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中，RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。

May, 2023

MR-BEN: 大型语言模型的综合元推理基准

大型语言模型在问题解决和决策方面表现出越来越强的能力，但评估其推理能力变得越来越具挑战性。为了解决这个问题，我们提出了一个基于过程的 MR-BEN 基准，要求语言模型在自动生成的推理步骤中找出并分析潜在的错误，通过这个基准，我们确定了当前语言模型的一些有趣限制和弱点。

Jun, 2024

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

元推理：针对大型语言模型的语义符号解构

本文提出了元推理（Meta-Reasoning）的概念，通过符号解构，最大限度地将某些推理任务的不同问题转化为类似的自然语言表达式，从而使得大语言模型 (LLMs) 能够通过类比学习和促进数据有效的上下文学习，从而显著地提高推理能力，GPT-3 (text-davinci-002) 在使用一个元推理演示的情况下可以达到超过 99％的准确率。

Jun, 2023

大型语言模型是临床推理器：具备推理意识的诊断框架和提示生成的合理化

借助基于提示的学习，通过 “推理感知” 的诊断框架实现了对临床推理进行理性化，并能够在时间和劳动资源上具有高效性，从而实现了对疾病诊断的临床推理。

Dec, 2023

CoMM: 合作多智能体、多推理路径的复杂问题解决

通过提出协作多代理、多推理路径的提示框架（CoMM），我们旨在推动大型语言模型（LLMs）的推理能力的上限，特别是解决复杂科学问题。

Apr, 2024

使用语言模型提示的推理：一项调查

本研究提供关于以语言模型提示为基础的推理的前沿研究的综合调查，介绍与比较了相关研究工作，并提供系统化的资源以帮助初学者，同时讨论了产生此类推理能力的潜在原因和未来的研究方向。

Dec, 2022

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023