可执行代码操作引发更好的 LLM 智能体

Feb, 2024

可执行代码操作引发更好的 LLM 智能体

Executable Code Actions Elicit Better LLM Agents

Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li...

TL;DR使用可执行的 Python 代码将大型语言模型 (LLM) 代理的动作统一到一个行动空间 (CodeAct) 中，并通过多轮交互来执行代码动作、动态修订先前的动作或生成新的动作。实验结果显示，CodeAct 相较于广泛使用的其他方法在性能上表现更好，并通过构建与用户协作的开源 LLM 代理 (CodeActAgent) 展示了其在任务导向模型中的潜力。

Abstract

large language model (LLM) agents, capable of performing a broad range of actions, such as invoking tools and controlling robots, show great potential in tackling real-world challenges. llm agents are typically p

large language model llm agents codeact python interpreter multi-turn interactions

发现论文，激发创造

通過行動學習增強大型語言模型代理

我们的研究探索了语言代理程序的开放式行为学习，在每一次迭代中，通过修正和更新当前可用的动作，从而提高动作的有效性，实验证明，这种开放式行为学习方法显著改善了代理程序的性能，突出了经验行为学习在更智能的大型语言模型代理程序发展中的重要性。

Feb, 2024

码作策略：语言模型程序用于实体控制

该研究论文介绍了如何将大型语言模型用于编写机器人策略代码，并达成具有几何空间推理能力、可自主创新、精确且具备行为常识的策略，同时提供了对多个真实机器人平台进行演示和基准测试的代码和视频。

Sep, 2022

如果 LLM 是巫师，那么代码就是魔棒：关于代码如何赋予大语言模型作为智能代理的调查

通过将代码集成到大型语言模型的训练数据中，可以提高语言模型的代码生成能力、推理能力以及生成结构化和精确的中间步骤，并将其转化为智能代理在复杂自然语言任务中的应用。

Jan, 2024

AUTOACT：自主规划的自动代理学习

AutoAct 是一个自动的代理学习框架，不依赖于大规模标注数据和闭源模型的合成轨迹。它通过自动合成规划轨迹和分工策略来实现多功能单一模型，在不同的 LLMs 上获得比强基准更好或类似的性能。

Jan, 2024

Instruct2Act：使用大型语言模型将多模态指令映射到机器人动作

本文介绍 Instruct2Act 框架，利用大型语言模型将多模态指令映射为机器人操作任务所需的 Python 代码，采用 Segment Anything Model (SAM) 和 CLIP 等基础模型有效定位和分类物体，实现高效的机器人操作策略。

May, 2023

ReAct: 在语言模型中协同推理与行动

使用名为 ReAct 的方法，在大型语言模型中交错生成推理迹线和任务特定的操作，以促进两者之间的协作，从而在多项语言理解和决策任务中提高其有效性，同时优于缺乏推理或行为组件的方法。

Oct, 2022

InterCode：标准化和基准测试带有执行反馈的交互式编码

本研究提出 InterCode 框架，作为交互式编码的标准强化学习（RL）环境，并使用 Bash 和 SQL 作为行动空间，以前沿的 LLMs 和其它编码策略作为实证对象，以展示其优越性和可持续性，同时证明其作为推进代码理解和生成能力的有挑战性的基准测试。

Jun, 2023

基于模型的 LLM 代理系统 WorldCoder：通过编写代码和与环境交互建立世界模型

基于模型的智能体使用与环境的交互来构建代表其对世界的知识的 Python 程序。通过扩展基于 LLMs 的程序合成的工作，尝试解释智能体的交互，同时对其可以实现的奖励持有乐观态度。在网格世界中，我们发现该方法相比深度强化学习更具样本效率，并且相比于 ReAct 式智能体更具计算效率。

Feb, 2024

从总结到行动：利用开放式接口增强大规模语言模型对复杂任务的应用

人类与动物之间的区别在于人类可以使用和创造工具，而使大型语言模型具备学习外部工具使用的能力可以成为实现人工智能的重要一步。本研究引入了一种新的工具调用管道，设计用于控制庞大的真实世界应用程序接口，通过 ` 从摘要到行动 ' 的 Sum2Act 管道，在复杂的真实用户查询中模拟人类解决问题的过程，从而提高了大型语言模型的性能，优于现有的方法。

Feb, 2024

代理代码是最先进的软件测试员

使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力，并且在生成相关测试用例方面表现出众，尤其是在代码修复方面，生成的测试用例是提出代码修复的一个有效过滤器。

Jun, 2024