大语言模型文本的成对比较扩展中的概念导向思路引导
提出了一种基于比较的链式思考生成算法,通过直接利用语言模型的嘈杂反馈,识别最有前景的思考,从而提高大型语言模型在处理复杂推理问题时的能力。
Feb, 2024
通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分,结果显示 Llama-7b 表现最差,均方误差最高,而 ChatGPT 表现出色,科恩卡帕分数达到 0.53。此外,所选模型均优先考虑用户隐私,允许用户删除自己进行的会话。
Sep, 2023
该研究通过应用大型语言模型(LLMs),特别是 GPT-3.5 和 GPT-4,结合思维链(CoT),对学生科学评估中的写作回答进行自动评分的应用进行了调查,并专注于克服先前限制研究人员和教育工作者使用自动评估工具的可访问性、技术复杂性和解释性方面的挑战。研究结果表明,GPT-4 相对于 GPT-3.5 在各种评分任务中表现出更高的性能,并且使用 CoT 能够提高评分准确性,特别是当与项目描述和评分标准一起使用时。
Nov, 2023
通过使用自动探索的 CoT prompt 对多个 LLMs 进行无监督语言生成,我们发现将该 prompt 应用于最新的 GPT-4 模型是最优的。
May, 2023
Chain-of-Thought 提示可以增强大型语言模型(LLMs)的推理能力,现有的 CoT 综合方法针对简单推理任务,导致 CoT 提示的质量低且不一致。为了应对这一挑战,我们进行了 CoT 提示的实证研究并引入了 CoTGenius,一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集,并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调,得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。
Mar, 2024
通过对 Chain-of-Thought(CoT)提示方式的研究,我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键,而错误操作会对性能产生负面影响,这项研究加深了我们对 CoT 提示方式的理解,也提出了有关大语言模型在上下文中学习推理能力的新问题。
Sep, 2023
链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法,通过在中间步骤中结合步长和推理过程等模式,有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验,结果表明我们的方法大大提高了推理性能,并且对错误表现出鲁棒性。代码将公开提供。
Apr, 2024
我们提出了一种粗细链式思维(CoF-CoT)方法,将自然语言理解任务分解为多个推理步骤,以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念,并利用基于语义的抽象意义表示(AMR)结构化知识作为中间步骤,捕捉话语的细微差别和多样性结构,并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下,证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。
Oct, 2023
使用混合任务场景中的元推理链 (Meta-CoT) 提示方法,构建来自相应数据池的多样化演示,可同时在十个公共基准推理任务上表现出卓越的性能和优越的泛化能力。
Oct, 2023