无需修改语言模型的训练语言模型代理
利用强大的分析、规划和决策能力,以及四个代理的协作,我们提出了一种 TrainerAgent 系统,它由任务、数据、模型和服务器代理组成,通过综合地从数据和模型的角度对用户定义的任务、输入数据和需求进行优化,从而获得满足要求的模型,并将这些模型作为在线服务部署,相较于传统模型开发,我们的系统以增加效率和质量的方式取得了显著进展。
Nov, 2023
通过在单一统一的机器学习范式中正式定义大型语言模型(LLM)的训练过程,包括预训练、监督微调和强化学习与人类反馈,我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处,从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角,为解决对齐问题等战略考虑提供了新的理解。此外,我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。
Feb, 2024
本研究提出了一种新颖的方法,将预训练的 LLMs 与有限元模块集成。FEM 模块评估每个设计并提供必要的反馈,引导 LLMs 不断学习、规划、生成和优化设计,无需进行特定领域的训练。我们通过对桁架结构的迭代优化进行实证研究,展示了提出的框架的有效性,显示它能够根据结构化反馈和标准进行推理和改进设计。我们的结果显示,这些基于 LLM 的代理能够以高达 90% 的成功率生成符合自然语言规范的桁架设计,但成功率根据应用的约束条件而变化。我们通过采用基于提示的优化技术表明,当向 LLM 代理提供解决方案 - 评分对以迭代地改进设计以满足规范时,它们具备优化行为能力。LLM 代理能够生成可行的设计并根据其内在推理能力进行优化的能力,突显其实现自主设计策略的潜力。
Apr, 2024
通过在复杂环境中使用 WebArena 基准测试,我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度,通过自我改进的方式,在三种不同的合成训练数据混合情况下,我们实现了在 WebArena 基准测试中任务完成率的 31%提高,并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。
May, 2024
通过对基于大语言模型的自主代理的综合调查,本文提出了一个统一框架来概括以往研究,并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时,我们还讨论了该领域的挑战和未来方向。
Aug, 2023
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索,以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展,预计它们将成为我们数字生活中不可或缺的一部分,协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。
Apr, 2024
大型语言模型的出现催生了自然语言处理的重大进展,通过引入专业代理框架(PAgents)利用 LLM 的能力创建具有可控、专业级、互动型专长的自主代理,我们认为通过持续发展的专业知识,PAgents 可以重塑专业服务。本文旨在激发关于 LLM 的有前景的现实应用的讨论,我们认为 PAgents 的日益复杂和集成可能会导致人工智能系统在复杂领域展示专业掌握能力,服务于重要需求,并潜在地实现人工通用智能。
Feb, 2024
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明,我们的方法提高了样本效率,并实现了比基准方法更卓越的性能。
Nov, 2023
AgentTuning 是一种简单且通用的方法,可以提高大型语言模型在代理任务方面的能力,同时保持其一般能力。该方法通过使用 AgentInstruct 与通用领域的开源指令相结合的混合指令调整策略对 Llama 2 系列进行了指令调整,从而得到 AgentLM。评估结果显示,AgentTuning 能够提升语言模型的代理能力而不影响其一般能力,AgentLM-70B 在未知代理任务上与 GPT-3.5-turbo 相媲美,展现了广义的代理能力。我们在指定的网址开源了 AgentInstruct 和 AgentLM-7B、13B 和 70B 模型,为代理任务提供了开源和强大的替代方案。
Oct, 2023