E-ANT:高效自动 GUI 导航的大规模数据集
通过介绍 GUIDE 数据集,本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发,特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能。我们相信我们的数据集将成为提升多平台 LLMs 在实际应用中能力、促进自动化和自然语言理解领域创新的宝贵资源。使用 GUIDE 数据集,我们构建了 V-Zen,这是第一个使用我们的内部自动化工具 AUTONODE 在多个网站上进行自动化的 RPA 模型。
Apr, 2024
该研究论文介绍了一个新的数据集,名为 GUI-World,包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释,评估了当前最先进的 MLLMs(包括 ImageLLMs 和 VideoLLMs)在理解各种 GUI 内容方面的能力,发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容,而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而,作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步,展示了对各种 GUI 任务的改进理解,但由于基础 LLMs 的性能限制,使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战,研究为未来动态 GUI 内容理解的研究提供了有价值的见解。
Jun, 2024
通过简单的文本提示、当前观察和历史收集模型,我们的方法在视觉导航中对大型语言模型进行了精细调优,训练模型使用了来自 Habitat-Matterport 3D 数据集(HM3D)的人类示范和碰撞信号,实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。
Oct, 2023
通过对 RICO 数据集进行标注并使用多模态输入,该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法,使用户能够更好地了解 UI 元素的功能,并提出了一些创新性的功能,如通过标签引用 UI 元素,提高图标的语义等,以使 UI 对每个人都更加可用。
Oct, 2022
使用基于 GPT-4V 的 MM-Navigator 代理,通过先进的屏幕解析、动作推理和精确的动作定位能力,在智能手机图形用户界面(GUI)导航任务中实现了零射击导航,并在 iOS 和 Android 上展示了优异的性能。
Nov, 2023
通过构建大规模数据集,研究了语言引导的视觉导航中各个组成部分对代理性能的影响,并通过简单模仿学习将现有代理的性能推向了一个显著的新高度,成功率达到了 80%,并将在已见和未见环境中导航的泛化差距降低到不到 1%。
Jul, 2023
提出了一种名为 UINav 的演示式代理系统,能够以简单手势为主的任务演示实现高成功率,并在保持较轻量级的同时可在移动设备上运行,通过采用裁判模型、宏操作和增加训练数据的方式,最小化任务演示次数,对于每个任务平均 10 次演示,UINav 能够达到 70% 以上的准确率,并在足够多演示的情况下实现 40 个以上不同任务的几乎完美成功率。
Dec, 2023
V-Zen 是一款创新的多模态大语言模型,通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果,并与 GUIDE 数据集成功集成,标志着多模态人工智能研究的新时代的来临。
May, 2024
用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务,涵盖多个 Android 版本和设备类型,挑战用户界面操作推断和设备控制系统的鲁棒性分析。
Jul, 2023
本文介绍了 “Wan Juan” 数据集,一个大规模多模态数据集,包括中英文数据、文本、图像文本和视频模态,总容量超过 2TB。该数据集被用于训练 InternLM 模型,在与类似规模的模型相比的多维评估中展现出显著优势。
Aug, 2023