May, 2023

从像素到 UI 操作:通过图形用户界面学习跟随指令

TL;DR本研究提出一种使用基于像素的屏幕截图和一般的鼠标和键盘动作空间来模拟人与数字世界互动的智能代理。通过依赖于最近的像素预训练技术,该代理在 GUI 任务的 MinWob ++ 基准测试中表现出比人类众包工人更好的性能。