E-ANT：高效自动 GUI 导航的大规模数据集

EMNLPJun, 2024

E-ANT：高效自动 GUI 导航的大规模数据集

E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion

Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen...

TL;DR在线 GUI 导航是一个研究热点，本文提出了一个新的、高质量的数据集 E-ANT，用于评估和开发 GUI 导航和大语言模型的决策能力。

Abstract

online gui navigation on mobile devices has driven a lot of attention recent years since it contributes to many real-world applications. With the rapid development of →

online gui navigation large language models multimodal large language models dataset gui navigation

发现论文，激发创造

指南：执行的图形用户界面数据

通过介绍 GUIDE 数据集，本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发，特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能。我们相信我们的数据集将成为提升多平台 LLMs 在实际应用中能力、促进自动化和自然语言理解领域创新的宝贵资源。使用 GUIDE 数据集，我们构建了 V-Zen，这是第一个使用我们的内部自动化工具 AUTONODE 在多个网站上进行自动化的 RPA 模型。

Apr, 2024

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Jun, 2024

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023

移动界面实现更优语义理解

通过对 RICO 数据集进行标注并使用多模态输入，该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法，使用户能够更好地了解 UI 元素的功能，并提出了一些创新性的功能，如通过标签引用 UI 元素，提高图标的语义等，以使 UI 对每个人都更加可用。

Oct, 2022

GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

使用基于 GPT-4V 的 MM-Navigator 代理，通过先进的屏幕解析、动作推理和精确的动作定位能力，在智能手机图形用户界面（GUI）导航任务中实现了零射击导航，并在 iOS 和 Android 上展示了优异的性能。

Nov, 2023

视觉与语言导航中的数据生成扩展

通过构建大规模数据集，研究了语言引导的视觉导航中各个组成部分对代理性能的影响，并通过简单模仿学习将现有代理的性能推向了一个显著的新高度，成功率达到了 80％，并将在已见和未见环境中导航的泛化差距降低到不到 1％。

Jul, 2023

UINav：UI 自动化代理的制造者

提出了一种名为 UINav 的演示式代理系统，能够以简单手势为主的任务演示实现高成功率，并在保持较轻量级的同时可在移动设备上运行，通过采用裁判模型、宏操作和增加训练数据的方式，最小化任务演示次数，对于每个任务平均 10 次演示，UINav 能够达到 70% 以上的准确率，并在足够多演示的情况下实现 40 个以上不同任务的几乎完美成功率。

Dec, 2023

V-Zen：高效 GUI 理解与准确引用的新型多模态 LLM

V-Zen 是一款创新的多模态大语言模型，通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果，并与 GUIDE 数据集成功集成，标志着多模态人工智能研究的新时代的来临。

May, 2024

Android 在野外：用于 Android 设备控制的大规模数据集

用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务，涵盖多个 Android 版本和设备类型，挑战用户界面操作推断和设备控制系统的鲁棒性分析。

Jul, 2023

万卷：推动英文和中文大型模型的全面多模态数据集

本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Aug, 2023