数学满分:渐进修正提示
通过引入一种独特的提示策略,名为教育思维链(PedCoT),该研究论文提出了一种有效识别推理错误的方法,并在数学问题中取得了显著优于基线模型的结果。
May, 2024
本文提出了一种名为 “逐步提示” 的新提示方法,它利用先前生成的答案作为提示,逐步引导用户与 LLMs 之间的自动多次交互,从而进一步提高了性能。 该方法在 CoT 和自一致性之外,具有正交性,易于与最先进的技术相结合进行综合评估,并在六个基准测试中获得了最佳性能。
Apr, 2023
通过在问题提示中集成残差连接,Residual Connection Prompting (RESPROMPT) 有效地捕捉了多步骤推理中固有的复杂推理图,为开源的 LLaMA 模型系列在数学、顺序和常识推理的六个基准测试上显著提高了推理准确性,并在至少需要五个推理步骤的问题中相比最好的基于 Chain-of-thought (CoT) 的基准测试提高了 21.1% 和 14.3%。
Oct, 2023
通过对推理链和性能的关系的研究,我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE,该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分(PDS)框架,充分利用多个推理链的信息,相比答案检查基准线,平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1%。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。
Feb, 2024
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
通过使用 “Let's think step by step” 等输入提示来生成排列步骤,Plan-and-Solve (PS) Prompting 解决了 Zero-shot-CoT 存在的缺失计算错误,缺失步骤错误和语义误解错误,是一种有效的零次提示策略,能够在数学推理问题上与 8-shot CoT 提示相媲美,并优于 Zero-shot-CoT 和 Zero-shot-Program-of-Thought 提示。
May, 2023
通过使用 R3 提示方法来处理嘈杂语境下的 CoT 推理,能够提高 LLM 在推理任务中的准确性。与现有的 CoT 提示方法相比,R3 提示方法在噪声环境下显著优越,通过与 GPT-3.5-turbo 的实验观察,平均推理准确性提高了 3.7%。该方法在解决噪声环境下 LLM 的推理任务时表现出了强大的鲁棒性和普适性。
Oct, 2023
研究论文通过改善大型语言模型的错误修正能力,以及提出面向诊断的提示方法 (DOP),对数学世界问题修正进行研究,重点在于辨别数学推理与错误修正,以及强调在数学教育中优秀的修正更胜于熟练的推理。
May, 2024
对比提示(CP)显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能,无需手动设计少数训练示例,与当前最先进的 GPT-4 模型相比,在 GSM8K 的准确率从 35.9% 提升至 88.8%,在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT,还能与现有的提示方法无缝集成,得到改进或相当的结果。
Mar, 2024
本文提出了一种新的方法 Active-Prompt,通过任务特定的示例提示来适应 LLMs 的不同任务,通过从特定的查询池中选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。经验结果表明了我们提出的方法的优越性,取得了八项复杂推理任务的最新成果。
Feb, 2023