HeaP：使用 LLM 的网页行为的分层策略

Oct, 2023

HeaP：使用 LLM 的网页行为的分层策略

HeaP: Hierarchical Policies for Web Actions using LLMs

Paloma Sodhi, S.R.K. Branavan, Ryan McDonald

TL;DR大型语言模型（LLMs）通过使用层次化促进和学习低级策略，能够解决 Web 任务的组合和变化问题，从而在使用更少数据的情况下提高任务执行性能。

Abstract

large language models (LLMs) have demonstrated remarkable capabilities in performing a range of instruction following tasks in few and zero-shot settings. However, teaching LLMs to perform tasks on the web presents fundamental challenges -- combinatorially large open-world tasks and va

large language models web tasks low-level policies hierarchical prompts task performance

发现论文，激发创造

基于 LLM 的应用程序基于意图的管理政策生成

通过使用大型语言模型，我们探索自动化意图分解和执行的能力，提出了一种通过生成所需操作来进行逐步分解意图的方法，并通过创建封闭控制循环来自动化策略执行，从而实现了应用程序管理的意图自动化。

Jan, 2024

释放创造力的思维：语言模型作为层次策略在挑战性问题求解中的改进探索

通过将 LLMs 视为分层策略，解放其创造力，通过在上下文学习的方式探索多种多样的问题解决策略，我们提出了一种有效的、高效的基于比赛的方法来选择探索的解决方案组，从而提高了在 MATH 数据集中具有挑战性问题的最终答案的准确性。

Nov, 2023

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

LLM 强化的分层语言代理用于实时的人工智能与人类协调

AI agents using Large Language Models (LLMs) have revolutionized human-AI coordination in various tasks, but their high inference latency makes them unsuitable for real-time applications; this paper proposes a Hierarchical Language Agent (HLA) that combines a proficient LLM, a lightweight LLM, and a reactive policy to provide strong reasoning abilities in real-time execution, showcasing superior cooperation abilities, faster responses, and more consistent language communications compared to other agents.

Dec, 2023

语言模型可以从环境反馈中推断经典计划器的动作语义

提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划，就能够比随机探索更少的执行步骤和环境重置，并同时恢复领域的基本行动语义。

Jun, 2024

分层引导辅助大型语言模型进行网络导航

通过一种分层提示方法，对互动决策中复杂的观察进行处理，特别在 Web 导航的复杂领域中，该方法的任务成功率比最先进的提示机制提高了 6.2％，展示了它对具有长观察跟踪的交互决策任务的潜力。

May, 2023

使用大型语言模型生成机器人任务计划

通过使用编程式的提示结构，可以促使大型语言模型在不同的环境、机器人能力和任务中进行计划生成，从而大大减少了任务规划中需要定义的领域知识。

Sep, 2022

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

LLM 增强分层代理

利用强化学习解决长期和拓展性任务很具挑战性，特别是在没有先验知识的情况下，为了提高样本效率，本文通过利用 LLMs 的规划能力结合强化学习的环境学习，构建了一个层次化代理，用于解决长期任务，并在 MiniGrid、SkillHack 和 Crafter 等仿真环境以及实际机械臂的块操作任务中验证了该方法的优越性能，且训练完成后不需要依赖 LLMs 进行部署。

Nov, 2023