Jan, 2024

SeeClick: 利用 GUI 基础为高级视觉 GUI 代理准备

TL;DR通过仅依赖屏幕截图进行任务自动化,我们提出了一个视觉图形用户界面代理 - SeeClick,以解决开发图形用户界面代理的一个关键挑战:准确定位基于指令的屏幕元素。通过 GUI 定位的优化,我们观察到在各种基线测试中,SeeClick 在 ScreenSpot 上取得了显著提升,并且对三个广泛使用的基准测试进行的综合评估一致支持我们的发现:GUI 定位的进展与下游 GUI 代理任务的性能提升直接相关。