利用训练数据进行少样本提示数值推理
本研究介绍了一个新的数据集TabMWP,其中包含需要在文本和表格数据上进行数学推理的问题,以及新的方法PromptPG,使用策略梯度从少量训练数据中选择上下文示例并构造相应的提示,以优化大型语言模型在此类复杂数学推理问题上的表现。该方法提高了5.31%的准确性,并显着减少了预测差异,验证了其在选择上下文示例方面的有效性。
Sep, 2022
本文提出了一种新的方法Active-Prompt,通过任务特定的示例提示来适应LLMs的不同任务,通过从特定的查询池中选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。经验结果表明了我们提出的方法的优越性,取得了八项复杂推理任务的最新成果。
Feb, 2023
本文提出了一种使用Automate-CoT自动扩展和选择合理链来推动CoT的方法,该方法通过构建候选池从标签生成的机器理性链中选择多个理性链的最佳组合,以推进大型语言模型的推理能力,并在算术推理、常识推理、符号推理和非推理任务中取得了最先进的结果。
Feb, 2023
通过使用“Let's think step by step”等输入提示来生成排列步骤,Plan-and-Solve (PS) Prompting解决了Zero-shot-CoT存在的缺失计算错误,缺失步骤错误和语义误解错误,是一种有效的零次提示策略,能够在数学推理问题上与8-shot CoT提示相媲美,并优于Zero-shot-CoT和Zero-shot-Program-of-Thought提示。
May, 2023
本研究提出了一种叫做code prompting的新型神经符号提示方法,通过触发代码作为中间步骤,以实现符号和算术推理任务一直面对的语言及理解难题。经过对七项广泛使用的基准测试进行实验验证,研究者发现Code Prompting方法通常优于Chain-of-Thought(CoT)Prompting。他们还考虑了代码提示和CoT提示的融合来结合两者的优点。最后,通过实验证明,代码注释及其位置如何影响代码提示。
May, 2023
大语言模型 (LLM)在许多任务上展现出了令人印象深刻的性能。然而,为了实现最佳性能,仍然需要特殊设计的提示方法。在这项工作中,我们试图引入通用提示的概念,它在设计原则上旨在在广泛的任务范围内实现最佳或接近最佳的性能,同时消除了手动选择和定制面向特定问题的提示的需求。此外,我们提出了一种创新的提示方法 MeMo(心智模型),它设计简单但有效地满足通用提示的要求。MeMo将各种提示方法的要点提炼成个别的心智模型,并允许LLMs自主选择最合适的心智模型来解决问题,在零样本设置下在STEM、逻辑推理和常识推理等多种任务上达到或接近于最新的研究结果。我们希望本文所提出的见解能够激发更多对LLMs的通用提示方法的探索。
Feb, 2024
本文从统计估计的角度分析链式思维(CoT)提示及其变体,针对其样本复杂性进行了全面描述。研究表明,在大规模预训练数据集的情况下,CoT 提示形成的估计量等同于贝叶斯估计量,有效解决多步推理问题,并通过实验验证了理论结果。
Aug, 2024
本研究聚焦于链式思维提示(CoT)在多步推理问题中的有效性,填补了对其样本复杂度的统计分析这一空白。研究引入了一种多步潜在变量模型,表明当预训练数据集足够大时,CoT提示形成的估计器等同于贝叶斯估计器,其统计错误可以分解为提示误差和预训练模型的统计误差。关键发现是,提示误差随着演示样本数量的增加呈指数衰减,展示了这种方法在多步推理中的有效性和潜在影响。
Aug, 2024