使用语言模型提示的推理：一项调查

Dec, 2022

使用语言模型提示的推理：一项调查

Reasoning with Language Model Prompting: A Survey

Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao...

TL;DR本研究提供关于以语言模型提示为基础的推理的前沿研究的综合调查，介绍与比较了相关研究工作，并提供系统化的资源以帮助初学者，同时讨论了产生此类推理能力的潜在原因和未来的研究方向。

Abstract

reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive <

reasoning language model prompting survey research problem-solving

发现论文，激发创造

诊断推理提示揭示了在医学领域中大型语言模型可解释性的潜力

GPT4 可以通过使用诊断推理提示模拟临床医生的常见临床推理过程，而不会损失诊断准确性，因此它可以为医生提供评估 LLMs 是否可信赖用于患者护理的手段。新的提示方法有潜力揭示 LLMs 的黑盒子，将它们推向在医学中安全有效使用的一步。

Aug, 2023

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

代码提示引发了文本 + 代码模型的条件推理能力

通过将自然语言问题转化为代码并用生成的代码提示进行训练，作者发现代码提示在需要条件推理的多个数据集上提高了 2.6 到 7.7 个 GPT 3.5 的绩效，并且观察到代码提示需要包含自然语言文本和高质量代码，以及其触发更优的变量或关键实例的状态跟踪。

Jan, 2024

关于利用生物学问题的大型语言模型的推理能力和可访问性的调查

本文讨论了过去十年在生物医学和大型语言模型方面取得的进展，还讨论了自然语言处理技术和工具如何与生物医学相结合。最后，通过引入一系列新的问题和提示，本文旨在对去年一项调查的结果进行扩展，以 quantifying 大型语言模型的推理能力改进以及普通用户所感受到的改进程度。此外，本文还通过要求大型语言模型深入回答开放性问题，扩展了生物文献检索的研究领域。

May, 2024

大型语言模型是临床推理器：具备推理意识的诊断框架和提示生成的合理化

借助基于提示的学习，通过 “推理感知” 的诊断框架实现了对临床推理进行理性化，并能够在时间和劳动资源上具有高效性，从而实现了对疾病诊断的临床推理。

Dec, 2023

自然语言推理概述

该研究是一篇关于自然语言推理的调查论文，提出了 NLP 领域内自然语言推理的概念和实践上的更清晰的视角，并提供了哲学和 NLP 场景的基础上自然语言推理的清晰定义、分类，以及各种任务需要做出推理、回溯推理技术和 defeasible reasoning 未来发展的前景等方面的综述。

Mar, 2023

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

重读改善语言模型的推理能力

通过重新阅读问题信息嵌入在提示中，我们提出了一种似乎简单但非常有效的提示策略，称为 “问题重新阅读”，该方法与认知增强的原理相一致，使得大型语言模型能够提取更深入的见解，识别复杂的模式，建立更细致的联系，从而增强其在各种任务中的推理能力。

Sep, 2023

大型语言模型的元推理

Meta-Reasoning Prompting（MRP）是一种受人类元推理启发的用于大型语言模型（LLMs）的新型高效系统提示方法，通过动态选择和应用不同的推理方法来优化性能和计算效率，实现了在不同任务中达到或接近最先进性能的结果。

Jun, 2024

大型语言模型执行诊断推理

通过将思路链式提示（CoT）拓展到医学推理领域，我们提出了诊断推理 CoT（DR-CoT）。实证结果表明，通过仅向仅训练于一般文本语料库的大型语言模型提供两个 DR-CoT 实例来指导，诊断准确性提高了 15%。此外，在领域外情景中，该差距达到显著的 18%。我们的研究结果表明，大型语言模型中可以通过适当的提示引出专家知识推理。

Jul, 2023