BriefGPT.xyz
Ask
alpha
关键词
gui automation
搜索结果 - 2
图形用户界面操作叙述器:行为发生的地点和时间是什么?
通过引入语言与视觉多模态学习模型,研究提高图像 OCR 识别能力并实现 GUI 自动化,开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架,提升了高分辨率截图的解释性。实验结果表明,即使对于如 GPT-
→
PDF
17 days ago
智能手机图形用户界面自动化的综合认知 LLM 代理
我们提出了一种全面认知的大型语言模型代理,CoCo-Agent,通过全面环境感知和条件化行动预测的两种新方法系统地提高了图形用户界面自动化性能。我们的代理在 AITW 和 META-GUI 基准测试中取得了最新的最佳表现,展示了在现实场景中
→
PDF
5 months ago
Prev
Next