BriefGPT.xyz
Ask
alpha
关键词
tree-of-lens agent
搜索结果 - 1
随地阅读:具备布局感知的 GUI 屏幕阅读与镜头树定位
通过使用 Tree-of-Lens(ToL)代理,该研究提出了一种新的构建方法来解决 Screen Point-and-Read(SPR)任务,该代理不仅理解指示区域的内容,还能表达布局和元素之间的空间关系,这对于准确解释屏幕上的信息至关重
→
PDF
13 days ago
Prev
Next