HeaP:使用 LLM 的网页行为的分层策略
通过使用大型语言模型,我们探索自动化意图分解和执行的能力,提出了一种通过生成所需操作来进行逐步分解意图的方法,并通过创建封闭控制循环来自动化策略执行,从而实现了应用程序管理的意图自动化。
Jan, 2024
通过将 LLMs 视为分层策略,解放其创造力,通过在上下文学习的方式探索多种多样的问题解决策略,我们提出了一种有效的、高效的基于比赛的方法来选择探索的解决方案组,从而提高了在 MATH 数据集中具有挑战性问题的最终答案的准确性。
Nov, 2023
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务,并提出了一种条件方法,将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明,该方法在可执行性方面显著优于大型语言模型基线。
Jan, 2022
AI agents using Large Language Models (LLMs) have revolutionized human-AI coordination in various tasks, but their high inference latency makes them unsuitable for real-time applications; this paper proposes a Hierarchical Language Agent (HLA) that combines a proficient LLM, a lightweight LLM, and a reactive policy to provide strong reasoning abilities in real-time execution, showcasing superior cooperation abilities, faster responses, and more consistent language communications compared to other agents.
Dec, 2023
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。
Jun, 2024
通过一种分层提示方法,对互动决策中复杂的观察进行处理,特别在 Web 导航的复杂领域中,该方法的任务成功率比最先进的提示机制提高了 6.2%,展示了它对具有长观察跟踪的交互决策任务的潜力。
May, 2023
通过使用大规模语言模型,我们提出了一种新的框架,通过从语言模型教师代理接收指导行为,训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中,该学生代理可以用较少的数据进行训练,并通过环境反馈进一步提升其能力。实验结果表明,我们的方法提高了样本效率,并实现了比基准方法更卓越的性能。
Nov, 2023
利用强化学习解决长期和拓展性任务很具挑战性,特别是在没有先验知识的情况下,为了提高样本效率,本文通过利用 LLMs 的规划能力结合强化学习的环境学习,构建了一个层次化代理,用于解决长期任务,并在 MiniGrid、SkillHack 和 Crafter 等仿真环境以及实际机械臂的块操作任务中验证了该方法的优越性能,且训练完成后不需要依赖 LLMs 进行部署。
Nov, 2023