May, 2024

大型语言模型能够在网络代理任务上进行自我改进

TL;DR通过在复杂环境中使用 WebArena 基准测试,我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度,通过自我改进的方式,在三种不同的合成训练数据混合情况下,我们实现了在 WebArena 基准测试中任务完成率的 31%提高,并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。