Jan, 2024

VisualWebArena: 在现实视觉网络任务中评估多模态代理

TL;DR通过对多模态网络代理的性能进行评估,我们引入了 VisualWebArena,它是一个用于评估自主多模态代理在具有视觉基础任务方面性能的基准。我们对现有的自主代理进行了广泛的评估,并揭示了文本模型的几个限制以及现有多模态语言代理能力上的差距。