大型语言模型中多跳问答的图引导推理
大型语言模型(LLMs)在生成连贯思路解释时展现出强大的推理能力,然而,之前的研究仅关注于回答的准确性,忽略了生成的连贯思路的正确性。本文通过利用知识图谱(KGs)深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式,用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明,LLMs 具有足够的知识进行推理,然而,LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异,表明它们经常通过错误的推理方法得出正确的答案。
Feb, 2024
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
引入了一种新的 Chain-of-Knowledge (CoK) 提示方法,旨在引导强大的语言模型(LLMs)生成显式的知识证明作为结构三元组,从而改进 Commonsense、事实、符号和算术推理任务的性能,并引入 F^2-Verification 方法估计链的可靠性
Jun, 2023
本研究通过一种自洽的跨语言提示机制,提出了一种跨语言多步推理方法,可以在不同语言中实现多步推理路径,从而达到解决复杂推理任务的目的,并在实验评估中表现出比现有提示方法更优的性能。
Nov, 2023
在这篇文章中,我们提出了自主启发式链式思考 (SP-CoT) 自动化框架,用于大规模生成高质量的多跳推理数据集并通过上下文学习实现自主启发式推理,实验证明 SP-CoT 在大规模和小规模语言模型上的性能均显著优于前沿方法,并能在中间步骤中召回约 50% 的中间答案。
Oct, 2023
使用 T5 预训练模型实现了图形思维推理模型,提高了基于文本推理任务 GSM8K 的性能和面向多模态的推理任务 ScienceQA 的准确率,通过较少的骨干模型参数与基于 700M 参数的 Multimodal-CoT 模型获得相当的结果,探索了非线性思考的建模方法。
May, 2023
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
通过在知识图谱(KG)上选择推理路径并结合思维链(CoT)和 PageRank 的子图检索方法,本文整合和优化了一个基于大型语言模型(LLM)的管道,可以减少对 LLM 的依赖。最终,RoK 证明了使用较少的 LLM 调用可以达到相同的结果。
Apr, 2024