BriefGPT.xyz
大模型
Ask
alpha
关键词
screenagent dataset
搜索结果 - 1
ScreenAgent:基于视觉语言模型的计算机控制代理
本文构建了一个用于视觉语言模型(VLM)代理与真实计算机屏幕交互的环境,在该环境中,代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面(GUI)。我们还设计了一个自动控制流程,包括规划、执行和反思阶段,指导代理不断与环境交互并完成
→
PDF
5 months ago
Prev
Next