指南:执行的图形用户界面数据
该研究论文介绍了一个新的数据集,名为 GUI-World,包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释,评估了当前最先进的 MLLMs(包括 ImageLLMs 和 VideoLLMs)在理解各种 GUI 内容方面的能力,发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容,而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而,作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步,展示了对各种 GUI 任务的改进理解,但由于基础 LLMs 的性能限制,使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战,研究为未来动态 GUI 内容理解的研究提供了有价值的见解。
Jun, 2024
V-Zen 是一款创新的多模态大语言模型,通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果,并与 GUIDE 数据集成功集成,标志着多模态人工智能研究的新时代的来临。
May, 2024
建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来,作为通用的 UI 任务自动执行器,并通过强化学习算法对其进行加强,实验结果表明,该模型在 UI 任务自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。
Oct, 2023
使用大型语言模型的图形用户界面(GUI)自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI,评估模型是否能够响应用户请求的任务,在 Windows 平台上操纵鼠标和键盘。实验结果显示,我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法,但在基准测试中,最佳模型的成功率仅为 46%。通过对当前方法的限制进行彻底分析,为未来在该领域取得突破奠定基础。
Dec, 2023
使用图形用户界面(Graphic User Interface)进行人机交互是访问各种数字工具的基本要素,在最近的视觉语言模型(Vision Language Models,VLMs)的发展中,发现了其潜力,可以开发多功能代理人来帮助人类完成图形用户界面导航任务,然而,现有的视觉语言模型在基本能力(OCR 和定位)和图形用户界面知识(图形用户界面元素的功能和控制方法)方面面临挑战,从而无法成为实用的图形用户界面代理人,为了解决这些挑战,我们提出了 GUICourse,一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集,首先,我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力,然后,我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识,实验证明,我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能,即使是小型的图形用户界面代理人(具有 31 亿个参数),仍然能够在单步和多步图形用户界面任务上表现良好,最后,我们通过消融研究分析了训练阶段中这个代理人之间的不同变化,我们的源代码和数据集已在此 https URL 上发布。
Jun, 2024
为帮助新手学习如何自己使用智能手机,我们提出了一种基于自然语言的指导代理,然后使用大型语言模型解析自然语言说明并生成可以在设备上执行的宏。我们介绍了一个多语言、多模式的 UI 基础数据集 UGIF-DataSet,我们对不同的大型语言模型的性能进行比较,发现任务完成成功率为英语 UI 为 48%,非英语语言的性能下降到 32%。
Nov, 2022
通过引入语言与视觉多模态学习模型,研究提高图像 OCR 识别能力并实现 GUI 自动化,开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架,提升了高分辨率截图的解释性。实验结果表明,即使对于如 GPT-4o 等最先进的多模态模型,该任务仍具有很高的挑战性,并且我们的策略可以有效增强模型性能。
Jun, 2024
在线 GUI 导航是一个研究热点,本文提出了一个新的、高质量的数据集 E-ANT,用于评估和开发 GUI 导航和大语言模型的决策能力。
Jun, 2024
本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射,并结合数据标注与合成技术,对其进行了完整的任务评估,并在 PIXELHELP 数据集上达到了 70.59% 的准确率。
May, 2020
通过提取蕴含于离线数据中的知识,AutoGuide 框架在大型语言模型的知识缺失问题上取得了重大突破,并通过提供与代理程序当前决策过程相关的有用知识,在顺序决策基准测试中大幅优于竞争的基于大型语言模型的基线模型。
Mar, 2024