潜在状态估计有助于用户界面代理进行推理

May, 2024

潜在状态估计有助于用户界面代理进行推理

Latent State Estimation Helps UI Agents to Reason

William E Bishop, Alice Li, Christopher Rawles, Oriana Riva

TL;DR研究了代理在现实环境中的一个常见问题，即环境对其行为的响应可能是不确定的，通过噪声观察到。通过适当的提示 LLMs 以零 - shot 方式可以被形式化地理解为在文本空间中形成对潜在状态的点估计。在自主 UI 代理的背景下，我们展示了以这种方式使用 LLMs 在推断潜在状态各方面（如已执行（与已命令）的操作和任务进展）上的准确性超过 76％。使用公共和内部基准测试以及三种推理方法（零 - shot，CoT-SC 和 ReAct），我们表明，明确估计和推理潜在状态的 LLM 驱动代理比那些不这样做的代理能够成功完成多达 1.6 倍的任务。

Abstract

A common problem for agents operating in real-world environments is that the response of an environment to their actions may be non-deterministic and observed through noise. This renders environmental state and p

agents environment llms latent state task progression

发现论文，激发创造

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023

疑虑时，慢思考：具有潜在想象力的迭代推理

我们在这项工作中提出了一种新颖的、无需训练的方法，通过在决策时应用迭代推理，基于未来状态表示的连贯性来优化被推理的智能体状态，从而提高了模型驱动的强化学习智能体的性能。

Feb, 2024

强化学习智能体的心智模型构建：基于语言模型的研究

大语言模型是否能够忠实地模拟决策智能体的智能能力，本研究通过实证方法首次探讨了大语言模型在通过推理构建决策智能体的心智模型方面的能力，并提供了关于其对强化学习智能体行为的解释性约束方面的新见解。

Jun, 2024

EvEntS ReaLM: 基于语言模型的实体状态事件推理

本文研究事件涵义的模型，通过探讨其对物理属性的理解能力来预测实体状态变化。作者发现，传统的大型语言模型无法很好地理解这方面的知识；而通过适当的提示方式，它们的性能可以得到极大的提升，尤其是对于未知的属性或数据信息不足的情况。

Nov, 2022

从词语到行动：揭示 LLM 驱动的自主系统的理论基础

从理论角度出发，研究大型语言模型在物理世界中解决决策问题的原因，通过层次化强化学习模型，证明预先训练的大型语言模型规划器通过上下文学习有效地进行贝叶斯聚合模仿学习，并引入探索策略避免线性遗憾。扩展该理论框架应用于环境的过渡模型推断和多智能体协调等场景。

May, 2024

通过代理分析提高机器人任务学习中从 LLMs 提取知识的能力

介绍了通过内置的自主机器人来扩大 LLM 响应的空间，根据语言能力、身体实体、环境和用户喜好挑选、修补、选择 LLM 提供的响应，从而使机器人能够完成 75% 以上的任务一次学习并显著减少需要人工监督的程度。

Jun, 2023

LASER：具有状态空间探索的 LLM 代理用于 Web 导航

大语言模型在网页导航等交互决策任务中已成功应用，我们提出了一种基于状态空间探索的交互式任务建模方法，通过动作与状态转换来完成任务，实现了灵活的回溯以提高性能。实验结果表明，我们的 LASER 代理在网页导航任务中明显优于以往的方法，并且与人类表现之间的差距缩小。

Sep, 2023

LLM 增强分层代理

利用强化学习解决长期和拓展性任务很具挑战性，特别是在没有先验知识的情况下，为了提高样本效率，本文通过利用 LLMs 的规划能力结合强化学习的环境学习，构建了一个层次化代理，用于解决长期任务，并在 MiniGrid、SkillHack 和 Crafter 等仿真环境以及实际机械臂的块操作任务中验证了该方法的优越性能，且训练完成后不需要依赖 LLMs 进行部署。

Nov, 2023

我有了 “答案”！问答中 LLMs 隐藏状态的解释

该研究调查了大型语言模型（LLMs）在基于知识的问答环境中的可解释性和可解释性，并提出隐藏状态可以区分正确和错误的模型行为的主要假设。通过测试量化模型 LLaMA-2-7B-Chat、Mistral-7B、Vicuna-7B 和 MuSeRC 问答数据集，分析结果支持所提出的假设。我们还确定了对模型行为产生负面影响的层次。作为假设在实际应用中的前景，我们建议对此类 “薄弱” 层次进行额外培训以提高任务解决的质量。

Jun, 2024