ReAct: 在语言模型中协同推理与行动
通过对输入提示的系统变化进行敏感性分析,我们发现 LLMs 的性能受到例示 - 查询相似度的影响,并且推理能力源于近似检索,而非内在推理能力。
May, 2024
通过 ReAct-style LLM 代理,我们可以迭代训练一个经过改进的小模型,用于具有挑战性的组合式问答基准测试,参数数量减少了两个数量级。
Dec, 2023
本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP,利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中,RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。
May, 2023
人类与动物之间的区别在于人类可以使用和创造工具,而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道,设计用于控制庞大的真实世界应用程序接口,通过 ` 从摘要到行动 ' 的 Sum2Act 管道,在复杂的真实用户查询中模拟人类解决问题的过程,从而提高了大型语言模型的性能,优于现有的方法。
Feb, 2024
本文介绍了一种名为 PreAct 的代理框架,该框架将预测、推理和行动相结合,通过利用预测信息,基于大型语言模型的代理能够提供更多样化和战略性导向的推理,从而使代理执行复杂任务更加有效。实验结果表明,PreAct 在完成复杂任务方面优于 ReAct 方法,而与反思方法相结合可以进一步增强 PreAct 的性能。同时,我们还发现历史预测对于基于大型语言模型的规划具有持续的积极影响。PreAct 和 ReAct 之间的单步推理差异表明 PreAct 确实在多样性和战略方向上具有优势。
Feb, 2024
本文探究将强化学习代理人和大规模语言模型相结合,实现在复杂环境中的推理和泛化的能力,通过预训练语言模型作为规划器,简单的合成体智能作为行动器,和与规划器通信的汇报器这三部分,展示这个系统在零 - shot 泛化的任务中的表现,并且讨论了其失败情况以及组件使用增强学习的培训任务。
Feb, 2023
本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务,并提出了一种条件方法,将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明,该方法在可执行性方面显著优于大型语言模型基线。
Jan, 2022
利用领导者 - 追随者双层框架,本文实现了一个完全集成的端到端框架,用于处理复杂的推理任务,并通过引入历史发现为生成合适的问题(提示)提供指导,进而指导行动学习。
Oct, 2023
本研究介绍了一个新的长格式数据库问答数据集,旨在评估大型语言模型(LLMs)与 SQL 解释器的互动。研究发现即使对于最先进的 GPT-4 模型,这个任务也存在巨大挑战。我们提出并评估了两种互动策略,并对互动过程中的各个阶段进行了细致分析。一个重要发现是确定了两个主要瓶颈,即规划能力和生成多个 SQL 查询能力。为了解决准确评估答案质量的挑战,我们引入了一个多代理评估框架,模拟学术同行评审过程,增强了我们评估的精确性和可靠性。该框架使我们能够更加细致地了解当前 LLMs 在复杂检索和推理任务中的优点和局限性。
Nov, 2023
本研究探讨了在能源和电力工程领域中使用大型语言模型(LLMs)与可调用工具进行研究,并重点关注燃气轮机的燃气通道分析。我们开发了双代理工具调用过程,以整合专家知识、预定义工具和 LLM 推理。我们评估了包括 LLama3、Qwen1.5 和 GPT 在内的各种 LLMs。较小的模型在工具使用和参数提取方面存在困难,而较大的模型展示了较好的能力。所有模型都面临着复杂、多组分问题的挑战。基于测试结果,我们推测具有近 1000 亿参数的 LLMs 可以通过精调和先进的提示设计满足专业场景需求。持续的发展可能提高其准确性和效果,为更强大的基于人工智能的解决方案铺平道路。
Jun, 2024