Android 在野外:用于 Android 设备控制的大规模数据集
研究使用 LLMs 对自主代理进行优化的方法,通过收集更多的数据,可以在域内获得较好的性能,但对于域外的高层任务来说,仅仅收集更多的数据可能不足以获得稳健的性能。
Jun, 2024
通过描述以前的操作、当前屏幕和选择操作所导致的结果的操作思考,Chain-of-Action-Thought 架构与大型语言模型相结合,在智能手机上实现了通过自然语言触发的任务完成,显著提高了目标进展。
Mar, 2024
描述了一个数据收集活动和由智能手机传感器得出的数据集,该数据集作为包含 45K 多个数据样本的 CSV 文件集合发布,每个样本由 1332 个与物理和虚拟传感器相关的特征组成,包括动作传感器、运行应用、附近设备和天气条件。此外,每个数据样本都与描述用户活动和传感实验中的情境(例如工作、就餐和运动活动)的基本真实标签相关联。为了避免引入数据收集过程中的任何偏差,我们在野外进行了传感实验,即使用志愿者的设备,并且没有限制用户行为。因此,收集的数据集对于定义和评估移动环境中根据用户情境变化调整行为的各种新颖背景感知解决方案(算法和协议)是一个有用的真实数据来源。
Jul, 2023
在当前普及的智能手机和平板电脑的背景下,应用程序经常存在于两种平台上。尽管应用程序在手机和平板电脑上共享大部分图形用户界面(GUI)和功能,但开发人员通常需要从头开始重建平板电脑版本,导致成本升高,并浪费现有的设计资源。研究人员正在尝试收集数据并使用深度学习在自动 GUI 开发中提高开发人员的生产力。目前,有一些公开可访问的 GUI 页面数据集用于手机,但没有关于手机和平板电脑之间的配对 GUI 的数据集。这对于在自动 GUI 开发中采用深度学习构成了重大障碍。在本文中,我们介绍了 Papt 数据集,一个专门为 Android 手机和平板电脑定制的先驱性配对 GUI 数据集,包括来自 5593 个唯一应用程序对的 10035 个手机 - 平板电脑 GUI 页面对。我们提出了新颖的配对 GUI 收集方法以构建此数据集,并详细说明了它相对于当前流行数据集的优势。通过对此数据集的初步实验,我们分析了在自动 GUI 开发中利用深度学习所面临的挑战。
Oct, 2023
本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射,并结合数据标注与合成技术,对其进行了完整的任务评估,并在 PIXELHELP 数据集上达到了 70.59% 的准确率。
May, 2020
提出了 WILDQA 数据集,包含视频问答(Video QA)和视频证据选择(Video Evidence Selection)两项任务,以在户外环境下录制的视频为主,对该数据集进行了广泛的基线测试和评估。
Sep, 2022
通过对 RICO 数据集进行标注并使用多模态输入,该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法,使用户能够更好地了解 UI 元素的功能,并提出了一些创新性的功能,如通过标签引用 UI 元素,提高图标的语义等,以使 UI 对每个人都更加可用。
Oct, 2022
在线 GUI 导航是一个研究热点,本文提出了一个新的、高质量的数据集 E-ANT,用于评估和开发 GUI 导航和大语言模型的决策能力。
Jun, 2024
本文提出了一个包含自然语言命令的自主驾驶汽车对象引用数据集,并与相关数据集进行了比较以及使用强大的最新模型进行了表现分析,该对象引用任务对于模型仍需要自然语言处理、计算机视觉以及这些领域的交叉研究进行进一步的研究。
Sep, 2019