问题分析提示提高推理任务中的LLM性能

Jul, 2024

问题分析提示提高推理任务中的LLM性能

Question-Analysis Prompting Improves LLM Performance in Reasoning Tasks

Dharunish Yugeswardeenoo, Kevin Zhu, Sean O'Brien

TL;DR尽管LLMs在许多领域具有潜力，但在推理任务上仍不如人类表现出色。本研究探讨了一个问题：让LLM分析问题是否能提高其性能？我们提出了一种新颖的提示策略，称为问题分析提示(QAP)，模型在解决问题之前被提示用$n$个词解释问题。值$n$影响模型生成的回答长度。在算术数据集GSM8K、AQuA、SAT和常识数据集StrategyQA上评估了QAP在GPT 3.5 Turbo和GPT 4 Turbo上的表现。QAP与其他领先的提示方法，包括思维链提示(CoT)、计划与解决提示(PS+)和深呼吸提示(TADB)进行了比较。在AQuA和SAT数据集上，QAP在GPT 3.5和GPT 4上的表现超过了所有的领先提示方法。在75%的测试中，QAP始终排名前2位。QAP表现的一个关键因素是回答长度，详细的回答对回答更难的问题有益，但可能对简单问题产生负面影响。

Abstract

Although llms have the potential to transform many fields, they still underperform humans in reasoning tasks. Existing methods induce the model to produce step-by-step calculations, but this research explores the

发现论文，激发创造

问我任何事：一种激发语言模型的简单策略

使用ASK ME ANYTHING（AMA）方法，通过开发多种不同的有效提示信息并进行权衡，采用弱监督程序结合这些提示信息来创造性地提高了大型语言模型的性能。该方法可以使开源GPT-J-6B模型在15个流行基准测试中优于few-shot GPT3-175B模型。

Oct, 2022

利用基于提示的技术来生成学校级问题的大型语言模型的力量

利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法，利用基于提示的技术生成描述性和推理性问题。我们通过精选的NCERT教科书的丰富内容，创建了一个名为EduProbe的新的问题生成数据集。我们针对此数据集调查了几种基于提示的问题生成方法，并使用预训练的大型语言模型进行了微调。通过自动评估，我们发现T5（使用长提示）表现优于其他模型，但仍然低于人类基准。在人类评估标准下，TextDavinci-003通常在各种提示设置下表现更好。即使在人类评估标准下，问题生成模型也大多低于人类基准。

Dec, 2023

思维的提升：利用大型语言模型进行试错问题解决

通过迭代地探索和自我评估许多思维树以获得试错推理经验集，我们提出了一种用于LLMs问题解决的自动提示框架BoT，它将作为一种新形式的提示来解决复杂的问题。实验证明，BoT在解决复杂数学问题时，与其他先进的提示方法相比，可以达到更高或相当的问题解决率。

Feb, 2024

深思熟虑: 问题拓展引导提升大型语言模型的数学推理能力

使用Problem Elaboration Prompting（PEP）改善大型语言模型（LLMs）的数学能力，在复杂推理和问题背景理解方面取得了有希望的表现。

Feb, 2024

在GSM8K上达到超过97%：深入理解问题使LLMs成为完美的推理者

我们提出了一种名为深度理解问题（DUP）提示的新型提示策略，用于增强LLMs对问题的全面理解。实验结果表明，DUP提示在各个数据集上明显优于零-shot CoT，并在SVAMP（90.4%至94.2%）和GSM8K（94.6%至97.1%）方面取得了最新的成果。

Apr, 2024

大型语言模型是否能胜任? 一项实证研究评估LLM评分K-12教育中的简答题能力

这篇论文讨论了使用大型语言模型（LLMs）对开放文本短答案问题进行评分的实验，研究了不同组合的GPT版本和提示工程策略在标记真实学生答案时的性能表现，并发现GPT-4在这方面表现良好与人类级别接近。这一研究对于支持K-12教育中的低风险形成性评估任务具有重要意义。

May, 2024

大型语言模型的推理：一项综述

扩大语言模型的参数规模到数十亿个参数开辟了上下文学习的可能性，允许对模型进行指导调整和少样本学习，从而在模型未经过专门训练的任务上取得了突破性的语言任务性能，如翻译、摘要和问答。本文回顾了基于提示的推理领域的迅速发展。我们的分类法识别出生成、评估和控制多步推理的不同方法。我们对核心方法和开放问题进行了深入研究，并提出了近期的研究议程。最后，我们强调了推理和基于提示学习之间的关系，并讨论了推理、顺序决策过程和强化学习之间的关系。我们发现通过合理使用提示可以实现自我改进、自我反思和推理过程的一些元认知能力。从使用LLMs进行推理到LLMs进行推理的真正自我改进和自我推理仍然是未来的工作。

Jul, 2024

语言模型通过经验知识的准备获益

本研究解决了现有语言模型在问答中对多步推理的依赖，从而提升了准确性。通过引入一种新的提示技术PREP，该方法结合了两个实例的语言模型来生成相关信息并回答问题，适用于多种领域的问题。实验结果表明，PREP在各类数据集上的准确率均高于其他测试方法，展现了其显著的提高潜力。

Sep, 2024

语言模型通过知识引导的准备过程获得收益

本研究解决了语言模型在回答问题时依赖相关知识而非仅依赖推理链的问题。我们提出了一种新的通用提示技术PREP，利用两个语言模型实例将生成的信息与问答相结合，达到更高的准确率。实验表明，该方法在多个数据集上的表现优于其他 tested 方法，具有广泛的应用潜力。

Sep, 2024

通过REAP增强大型语言模型的问题解决能力：反思、明确的问题分解和高级提示

本研究解决了大型语言模型在复杂推理任务中的问题解决能力不足。提出的REAP方法通过引导模型进行反思、将问题进行明确分解以及生成相关上下文，显著提升了模型的性能和输出清晰度。实验结果表明，REAP在多个领先模型上取得了显著提升，同时也提供了经济高效的解决方案。

Sep, 2024