May, 2024

潜在状态估计有助于用户界面代理进行推理

TL;DR研究了代理在现实环境中的一个常见问题,即环境对其行为的响应可能是不确定的,通过噪声观察到。通过适当的提示 LLMs 以零 - shot 方式可以被形式化地理解为在文本空间中形成对潜在状态的点估计。在自主 UI 代理的背景下,我们展示了以这种方式使用 LLMs 在推断潜在状态各方面(如已执行(与已命令)的操作和任务进展)上的准确性超过 76%。使用公共和内部基准测试以及三种推理方法(零 - shot,CoT-SC 和 ReAct),我们表明,明确估计和推理潜在状态的 LLM 驱动代理比那些不这样做的代理能够成功完成多达 1.6 倍的任务。