大型语言模型是零样本推理器
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
Dec, 2023
大语言模型通过应用无需预先训练的思维链式促进方法展示了卓越的表现,并展示了出色的推理能力。本文介绍了一种新的零样本促进方法,利用进化算法为大语言模型动态生成多样的促进方式,通过选择适合的促进方式提高模型的理解能力。详细实验结果表明,相较于当前的零样本推理方法,在 GPT-3.5-turbo 和 GPT-4 上,我们的方法表现出更优越的性能。此外,深入的分析实验突显了本方法在各种推理任务中的适应性和有效性。
Feb, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
对比提示(CP)显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能,无需手动设计少数训练示例,与当前最先进的 GPT-4 模型相比,在 GSM8K 的准确率从 35.9% 提升至 88.8%,在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT,还能与现有的提示方法无缝集成,得到改进或相当的结果。
Mar, 2024
本文旨在研究大型语言模型在表格相关任务中的能力,发现当结合 “思维链” 提示时,大型语言模型可以在只有 1 个样本的情况下达到与某些 SotA 模型相当的表现。
Oct, 2022
本研究提出了 Fine-tune-CoT 方法,该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型,从而在较小的模型中实现了大量的推理能力优化。
Dec, 2022
改善大型语言模型在通用语言理解任务上的零样本推理能力的方法,通过建立一个自动代理来指导大型语言模型的推理过程,将零样本推理能力进一步发挥到更多任务中,取得了在众多数据集上的最先进的零样本性能。
Oct, 2023
我们引入了一种基于大型语言模型的方法来回答需要多跳数字推理的复杂问题。我们的方法使用新颖的零样本提示,将所需的推理编码到 Python 程序或领域特定语言中,并通过程序解释器执行生成的程序,从而减轻了大型语言模型在执行准确的算术计算时的局限性。我们在三个财务数据集上评估了所提出的方法,使用一些最近开发的生成式预训练变压器模型,并与各种零样本基准进行比较。实验结果表明,我们的方法显著提高了大型语言模型在所有基线上的准确性。我们对结果进行了详细分析,生成支持我们发现的洞察。我们的方法的成功证明,通过设计有效利用嵌入在大型语言模型中的知识的零样本提示,可以提取复杂的领域特定数值推理的巨大潜力。
Nov, 2023
最近大语言模型(LLM),特别是链式思维(CoT)提示的发明,使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力,无需外部资源。具体而言,我们研究它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零 - shot 验证方案来识别这些错误。然后,我们使用这个验证方案来提高问题回答的性能,通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K,MathQA 和 MATH 上测试了该方法,发现它成功地识别错误,并进而提高了最终的预测性能。
Aug, 2023