本文研究了大型语言模型(LLMs)的能力,特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导 LLMs 生成连贯的思维链条。为实现此目标,我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下,我们建立了一个具有吸引力的几何收敛率,用于衡量 LLMs 生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为 LLMs 能够产生正确的思维序列提供了理论上的证明(潜在地)解释了在需要推理技能的任务中性能提升的原因。
Oct, 2023
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
通过使用元认知提示,通过系统性的结构化、自我意识评估,结合大量内在的知识和新的认识,可以提高大型语言模型的理解能力。实验结果表明,元认知提示始终优于现有的提示方法,并通过提高 GPT-4 的性能水平,增强了 GPT-4 在各种自然语言理解任务中的表现。
Aug, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
本研究探索了一个迭代提示框架,用于让预训练语言模型具有多步推理能力,我们提出了一种基于上下文的迭代提示器,可以动态地合成提示,以捕捉不同推理步骤之间的变化。实验证明,该方法在多步推理方面具有很好的效果。
Mar, 2022
本文介绍了一种新颖的贝叶斯提示方法,通过使用一个语言大模型(LLMs)中的一个模糊概率图模型(PGM)来实现无需训练的贝叶斯推理。我们的模型在多个组合推理任务中取得了良好的效果,有效提升了置信度的引发和文本生成质量,显示出在模拟不确定性方面提高人工智能语言理解系统的潜力。
Jun, 2024
通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分,结果显示 Llama-7b 表现最差,均方误差最高,而 ChatGPT 表现出色,科恩卡帕分数达到 0.53。此外,所选模型均优先考虑用户隐私,允许用户删除自己进行的会话。
Sep, 2023
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成,我们在 4 种不同类型的推理任务上评估了我们的方法,涵盖了共计 9 个不同的数据集。实验证明,我们的方法始终优于基准生成,并且在 9 个数据集中的 6 个数据集中,优于最佳的 N 个采样方法。
Apr, 2024
本研究提出一种使用大型语言模型(LLM)与扩散模型的人工智能协作框架,旨在从语言隐喻中生成视觉隐喻,以便于传达含蓄含义并进行陈述。经过插图师的评估证明,这种协作模型的前景看好。
May, 2023
该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息,结果显示这些模型的中间层主要包含了隐喻性知识,并且该知识在多语言和多数据集中具有泛化性。