DOP：面向诊断的提示在数学纠错中的应用

May, 2024

DOP：面向诊断的提示在数学纠错中的应用

DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction

Hao Chen, Biaojie Zeng, Xin Lin, Liang He, Aimin Zhou

TL;DR研究论文通过改善大型语言模型的错误修正能力，以及提出面向诊断的提示方法 (DOP)，对数学世界问题修正进行研究，重点在于辨别数学推理与错误修正，以及强调在数学教育中优秀的修正更胜于熟练的推理。

Abstract

math world problems correction(MWPC) is a novel task dedicated to rectifying reasoning errors in the process of solving mathematical problems. In this paper, leveraging the advancements in →

math world problems correction reasoning errors large language models error correction capabilities diagnostic-oriented promping

发现论文，激发创造

数学满分：渐进修正提示

通过 Progressive Rectification Prompting 方法，对 Chain-of-Thought 提示方法进行改进以提高数学问题的平均准确率。

Dec, 2023

LLMs 通过教学思路链找到数学推理错误

通过引入一种独特的提示策略，名为教育思维链（PedCoT），该研究论文提出了一种有效识别推理错误的方法，并在数学问题中取得了显著优于基线模型的结果。

May, 2024

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

在 GSM8K 上达到超过 97%：深入理解问题使 LLMs 成为完美的推理者

我们提出了一种名为深度理解问题（DUP）提示的新型提示策略，用于增强 LLMs 对问题的全面理解。实验结果表明，DUP 提示在各个数据集上明显优于零 - shot CoT，并在 SVAMP（90.4% 至 94.2%）和 GSM8K（94.6% 至 97.1%）方面取得了最新的成果。

Apr, 2024

借助大型语言模型增强心理治疗：通过诊断思维提示来检测认知失调

在大型语言模型的时代，我们研究认知畸变检测的任务并提出【思维诊断】（Diagnosis of Thought）促进，通过三个阶段：主观性评估，对事实和思维进行分离；对支持和反对思维的推理过程进行对比推理；以及对认知模式进行总结的模式分析，在辅助专业人士方面取得显著的改进，同时生成获得人工专家认可的高质量诊断依据。

Oct, 2023

与提示问题的交互：使用大型语言模型进行编程教学的新方法

通过 Prompt Problems 的方法，我们提出了一种新的教授编程的方式，学生可以通过将问题转化为语言模型（LLMs）所能理解的提示来解决编程问题，并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。

Jan, 2024

深思熟虑：问题拓展引导提升大型语言模型的数学推理能力

使用 Problem Elaboration Prompting（PEP）改善大型语言模型（LLMs）的数学能力，在复杂推理和问题背景理解方面取得了有希望的表现。

Feb, 2024

元认知提示提高大型语言模型的理解能力

通过使用元认知提示，通过系统性的结构化、自我意识评估，结合大量内在的知识和新的认识，可以提高大型语言模型的理解能力。实验结果表明，元认知提示始终优于现有的提示方法，并通过提高 GPT-4 的性能水平，增强了 GPT-4 在各种自然语言理解任务中的表现。

Aug, 2023

用智能 Mixture of Prompts 消除 LLM 任务适应的异质性

采用混合启示法和智能门控功能的多任务学习可以显著降低语言模型的困惑度。

Oct, 2023

大型语言模型是对比推理者

对比提示（CP）显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能，无需手动设计少数训练示例，与当前最先进的 GPT-4 模型相比，在 GSM8K 的准确率从 35.9% 提升至 88.8%，在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT，还能与现有的提示方法无缝集成，得到改进或相当的结果。

Mar, 2024