Jun, 2024

随地阅读:具备布局感知的 GUI 屏幕阅读与镜头树定位

TL;DR通过使用 Tree-of-Lens(ToL)代理,该研究提出了一种新的构建方法来解决 Screen Point-and-Read(SPR)任务,该代理不仅理解指示区域的内容,还能表达布局和元素之间的空间关系,这对于准确解释屏幕上的信息至关重要,这使得它与其他屏幕阅读工具有所区别。研究还在新提出的 SPR 基准上对 ToL 代理进行了全面评估,并在移动 GUI 导航任务中对 ToL 代理进行了测试,展示了其在识别代理执行轨迹路径上的错误操作方面的效用。