DOP:面向诊断的提示在数学纠错中的应用
通过 Progressive Rectification Prompting 方法,对 Chain-of-Thought 提示方法进行改进以提高数学问题的平均准确率。
Dec, 2023
通过引入一种独特的提示策略,名为教育思维链(PedCoT),该研究论文提出了一种有效识别推理错误的方法,并在数学问题中取得了显著优于基线模型的结果。
May, 2024
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
我们提出了一种名为深度理解问题(DUP)提示的新型提示策略,用于增强 LLMs 对问题的全面理解。实验结果表明,DUP 提示在各个数据集上明显优于零 - shot CoT,并在 SVAMP(90.4% 至 94.2%)和 GSM8K(94.6% 至 97.1%)方面取得了最新的成果。
Apr, 2024
在大型语言模型的时代,我们研究认知畸变检测的任务并提出【思维诊断】(Diagnosis of Thought)促进,通过三个阶段:主观性评估,对事实和思维进行分离;对支持和反对思维的推理过程进行对比推理;以及对认知模式进行总结的模式分析,在辅助专业人士方面取得显著的改进,同时生成获得人工专家认可的高质量诊断依据。
Oct, 2023
通过 Prompt Problems 的方法,我们提出了一种新的教授编程的方式,学生可以通过将问题转化为语言模型(LLMs)所能理解的提示来解决编程问题,并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。
Jan, 2024
使用 Problem Elaboration Prompting(PEP)改善大型语言模型(LLMs)的数学能力,在复杂推理和问题背景理解方面取得了有希望的表现。
Feb, 2024
通过使用元认知提示,通过系统性的结构化、自我意识评估,结合大量内在的知识和新的认识,可以提高大型语言模型的理解能力。实验结果表明,元认知提示始终优于现有的提示方法,并通过提高 GPT-4 的性能水平,增强了 GPT-4 在各种自然语言理解任务中的表现。
Aug, 2023
对比提示(CP)显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能,无需手动设计少数训练示例,与当前最先进的 GPT-4 模型相比,在 GSM8K 的准确率从 35.9% 提升至 88.8%,在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT,还能与现有的提示方法无缝集成,得到改进或相当的结果。
Mar, 2024