Agent-Pro: 通过策略层面的反思与优化进行学习进化
建立具有适应性行为的人工智能在人工智能与人类合作中具有重要的研究焦点。本研究提出了一种名为 ProAgent 的新框架,利用大型语言模型来预测合作伙伴的决策并改进自身计划。实验证明,ProAgent 在与人工智能代理和人类合作中表现出显著优越性能,为人类与机器人协作的未来研究提供了启示。
Aug, 2023
大型语言模型的出现催生了自然语言处理的重大进展,通过引入专业代理框架(PAgents)利用 LLM 的能力创建具有可控、专业级、互动型专长的自主代理,我们认为通过持续发展的专业知识,PAgents 可以重塑专业服务。本文旨在激发关于 LLM 的有前景的现实应用的讨论,我们认为 PAgents 的日益复杂和集成可能会导致人工智能系统在复杂领域展示专业掌握能力,服务于重要需求,并潜在地实现人工通用智能。
Feb, 2024
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明,我们的方法提高了样本效率,并实现了比基准方法更卓越的性能。
Nov, 2023
使用大型语言模型作为强化学习代理以解决对话式强化学习问题,通过提出的提示技术,演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略,并通过两个具体案例研究展示了该方法的实用性。
Apr, 2024
通过学习出具有回顾性模型的基于政策梯度的大型语言代理(language agent),我们的方法在多个环境和任务中学习奖励,以优化代理的性能,并取得了比基准方法更好的结果。
Aug, 2023
本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化,从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能,却不调整 LMM 参数,结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。
May, 2023
我们的研究探索了语言代理程序的开放式行为学习,在每一次迭代中,通过修正和更新当前可用的动作,从而提高动作的有效性,实验证明,这种开放式行为学习方法显著改善了代理程序的性能,突出了经验行为学习在更智能的大型语言模型代理程序发展中的重要性。
Feb, 2024
本文提出了一种用于策划大型语言模型(LLMs)主动对话问题的新型对话策略规划范式,名为 PPDPP,通过可调节的语言模型插件来提高 LLMs 的主动性。实验证明,在谈判、情感支持和辅导对话等三个不同的主动对话应用中,PPDPP 相对于现有方法始终有显著的性能优势。
Nov, 2023
通过在单一统一的机器学习范式中正式定义大型语言模型(LLM)的训练过程,包括预训练、监督微调和强化学习与人类反馈,我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处,从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角,为解决对齐问题等战略考虑提供了新的理解。此外,我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。
Feb, 2024
利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力,以推进人工智能 (AGI) 的发展,并提供了 LLM 基础的游戏智能体的综述,包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分,调研了六种游戏类型的现有代表性 LLM 基础游戏智能体,并展望了未来的研究和发展方向。
Apr, 2024