Apr, 2024

指南:执行的图形用户界面数据

TL;DR通过介绍 GUIDE 数据集,本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发,特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能。我们相信我们的数据集将成为提升多平台 LLMs 在实际应用中能力、促进自动化和自然语言理解领域创新的宝贵资源。使用 GUIDE 数据集,我们构建了 V-Zen,这是第一个使用我们的内部自动化工具 AUTONODE 在多个网站上进行自动化的 RPA 模型。