基于 And-Or 递归器和细化神谕的目标驱动 LLM 对话线程全自动化
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024
LLM-ARC 是一个神经符号框架,通过将大语言模型(LLMs)与自动推理评论家(ARC)相结合,提升其逻辑推理能力。它采用了演员 - 评论家方法,其中 LLM 演员生成声明性逻辑程序和语义正确性测试,而自动推理评论家评估代码,运行测试,并提供关于测试失败的反馈以进行迭代改进。在 FOLIO 基准测试中,利用 ASP 实现的 LLM-ARC 实现了 88.32% 的新的最高准确性,测试了复杂的逻辑推理能力。我们的实验证明了 LLM-ARC 相对于仅使用 LLM 的基准线的显著改进,突出了逻辑测试生成和迭代自我改进的重要性。我们通过完全自动化的自我监督训练循环达到了最佳结果,其中演员在端到端对话追踪上接受评论家的反馈训练。我们讨论了潜在的改进,并提供了详细的错误分析,展示了 LLM-ARC 在复杂自然语言推理任务中的鲁棒性和有效性。
Jun, 2024
在大型语言模型中添加一个反思层次,通过构建信念图和使用形式化的约束推理器,从而减少其答案与其他 “信念” 的依赖关系和不一致性,REFLEX 方法可以改善一定程度的一致性,同时不降低模型的答案准确性。
May, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
通过串联使用微调语言模型进行多步推理的方法,可以解决大型语言模型的单次调用限制,提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型,并生成可由用户检查的有效推理过程。
Aug, 2022
我们提出了基于步骤的 Outcome-based Reward Models (SORMs) 来提高语言模型的推理能力,通过合并全局和局部细化模型使模型在 GSM8K 数据集上的准确率从 53% 提高到 65%。
Feb, 2024
最近大型语言模型(LLMs)的可用性推动了许多基于 LLM 的方法的发展,旨在提供各种最终用户任务的自然语言接口。我们提出的方法的关键思想是利用逻辑推理和经典人工智能规划,结合 LLM 准确回答用户查询,包括识别和收集这些查询中的任何缺失信息。
May, 2024
大型语言模型在理解结构化环境中的推理任务中显示出潜力。我们提出了一种名为 Readi 的新框架,使 LLMs 能够高效而准确地在结构化环境中进行推理,并超越了其他基于 LLM 的方法。
Mar, 2024
通过创建示例池来代表每种语言模型较可靠回答的上下文类型,并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性,本研究提出了一种新颖的 SLM/LLM 路由框架,旨在提高计算效率并增强任务性能,在对话状态跟踪任务中,相较于仅依赖 LLMs,所提出的路由框架显著提高性能,同时减少计算成本超过 50%。
Nov, 2023