AgentGen:通过环境和任务生成增强大语言模型基础代理的规划能力
本文旨在研究LLLms在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估LLMs在自主规划和启发式两种不同模式下的表现,发现LLMs在自主规划方面的表现非常有限,但在启发式模式下,LLMs生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
May, 2023
本文提出了 AdaPlanner,一种基于闭环反馈的语言模型智能体自适应地改进生成的计划,并通过新的技能发现机制,使其能够在更复杂的任务和环境中实现更好的连续决策性能,实验结果表明 AdaPlanner 在 ALFWorld 和 MiniWoB++ 环境中优于现有的基线算法。
May, 2023
AgentTuning是一种简单且通用的方法,可以提高大型语言模型在代理任务方面的能力,同时保持其一般能力。该方法通过使用AgentInstruct与通用领域的开源指令相结合的混合指令调整策略对Llama 2系列进行了指令调整,从而得到AgentLM。评估结果显示,AgentTuning能够提升语言模型的代理能力而不影响其一般能力,AgentLM-70B在未知代理任务上与GPT-3.5-turbo相媲美,展现了广义的代理能力。我们在指定的网址开源了AgentInstruct和AgentLM-7B、13B和70B模型,为代理任务提供了开源和强大的替代方案。
Oct, 2023
该篇论文提出了一种名为``Formal-LLM''的新型框架用于基于LLM的代理,通过结合自然语言的表现力和形式语言的准确性,使规划过程具有控制性,从而防止代理生成无效和不成功的计划,并且通过实验验证了该框架在任务性能上取得的超过50%的整体性能提升,为在规划的有效性至关重要的应用场景中更广泛地利用LLM提供了可能性。
Feb, 2024
将大型语言模型作为自主代理的规划模块,通过提供现有作品的分类和全面分析,讨论了任务分解、计划选择和外部模块等方向在LLM-Agent规划中的进展和挑战。
Feb, 2024
通过引入显式的行动知识,KnowAgent为大型语言模型(LLMs)的规划能力提供了增强,实现了更合理的轨迹合成,从而提高了语言代理的规划性能。
Mar, 2024
我们提出了EnvGen,这是一个新颖的框架,利用大型语言模型(LLMs)的推理能力,自适应地创建训练环境,帮助小型的强化学习(RL)代理学习其薄弱的技能。我们通过在Crafter和Heist环境中的广泛实验表明,使用EnvGen训练的小型RL代理性能优于SOTA方法,包括GPT-4代理,并且学习长远任务的速度显著加快。同时,EnvGen更加高效,只需要少量的LLM调用,而LLM代理需要数千次LLM调用。最后,我们对设计选择进行了详细的消融研究。
Mar, 2024
通过自动生成规则和提高适应性,AutoManual框架使基于大型语言模型(LLM)的代理能够自主构建自身的理解并适应新的环境。在ALFWorld基准任务上,通过GPT-4-turbo和GPT-3.5-turbo,AutoManual显著提高了任务成功率,并生成了人可读的综合手册。
May, 2024
此研究论文介绍了Meta-Task Planning (MTP),一种用于协作式基于大型语言模型的多智能体系统的零样本方法,通过将复杂任务分解成次级任务或元任务来简化任务规划,进而将每个元任务映射为可执行动作。该方法在TravelPlanner和API-Bank两个基准测试中进行了评估,取得了出色的结果,显示了将LLM与多智能体系统整合的巨大潜力。
May, 2024
构建能够处理多样化任务并在不同环境中自我演进的通用智能体是人工智能领域的长期目标。本文提出了AgentGym,一个新的框架,具备多样的环境和任务,用于广泛、实时、统一格式和并行的智能体探索。并且,我们还提出了一种名为AgentEvol的新方法,研究智能体在任务和环境中自我演进的潜力。实验结果表明,演进的智能体能够达到与最先进模型相当的结果。
Jun, 2024