对比的思维链路提示
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
本文提出了一种基于连锁式思维提示调整的视觉语言建模方法,经过广泛的实验验证,我们的方法在图像分类任务中的泛化能力更强,在单个数据集之外具有更强的可转移性和更强的领域泛化性能,而且在需要更多推理能力的图像文本检索和视觉问答方面表现更好。
Apr, 2023
本文介绍了 Synthetic prompting 方法,该方法利用少量手工示例来提示模型自行生成更多示例,并选择有效的演示文稿以引出更好的推理。在数字、符号和算法推理任务上评估了该方法,并表明其优于现有提示技术。
Feb, 2023
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
我们引入了 Reveal:推理验证评估,这是一个新的数据集,用于在开放域问题回答设置中评估复杂的链式推理的自动验证器,包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。
Feb, 2024
根据 Blocksworld 的案例研究,通过链式思维问题可以提高大型语言模型的性能,但需要高度问题特定的提示,并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。
May, 2024
通过使用迭代的引导选择,我们介绍了迭代链式思考(Iter-CoT)方法,该方法可以使大型语言模型(LLM)自主纠正错误,同时选择具有适度难度的挑战性问题作为样本,从而增强 LLM 对于不同难度的推理任务的泛化能力。实验结果表明 Iter-CoT 方法在 11 个数据集上展现出卓越的性能表现。
Apr, 2023
引入了一种新的 Chain-of-Knowledge (CoK) 提示方法,旨在引导强大的语言模型(LLMs)生成显式的知识证明作为结构三元组,从而改进 Commonsense、事实、符号和算术推理任务的性能,并引入 F^2-Verification 方法估计链的可靠性
Jun, 2023
本论文提出一种基于链式推理的自动提问方法 Auto-CoT,通过采样具有多样性的问题并生成推理链来构建演示,在十项公共基准推理任务中,Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。
Oct, 2022
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成,我们在 4 种不同类型的推理任务上评估了我们的方法,涵盖了共计 9 个不同的数据集。实验证明,我们的方法始终优于基准生成,并且在 9 个数据集中的 6 个数据集中,优于最佳的 N 个采样方法。
Apr, 2024