Android 在野外：用于 Android 设备控制的大规模数据集

Jul, 2023

Android 在野外：用于 Android 设备控制的大规模数据集

Android in the Wild: A Large-Scale Dataset for Android Device Control

Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap

TL;DR用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务，涵盖多个 Android 版本和设备类型，挑战用户界面操作推断和设备控制系统的鲁棒性分析。

Abstract

There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a

device-control systems natural language instructions android in the wild dataset semantic understanding

发现论文，激发创造

AndroidWorld: 一个用于自主智能体动态基准测试的环境

自主代理、AndroidWorld、奖励信号、编程任务工作流、计算机控制代理

May, 2024

关于数据规模对计算机控制代理的影响

研究使用 LLMs 对自主代理进行优化的方法，通过收集更多的数据，可以在域内获得较好的性能，但对于域外的高层任务来说，仅仅收集更多的数据可能不足以获得稳健的性能。

Jun, 2024

动物园中的 Android: GUI 代理的行动思维链

通过描述以前的操作、当前屏幕和选择操作所导致的结果的操作思考，Chain-of-Action-Thought 架构与大型语言模型相结合，在智能手机上实现了通过自然语言触发的任务完成，显著提高了目标进展。

Mar, 2024

ContextLabeler 数据集：野外手机使用中收集的物理和虚拟传感器数据

描述了一个数据收集活动和由智能手机传感器得出的数据集，该数据集作为包含 45K 多个数据样本的 CSV 文件集合发布，每个样本由 1332 个与物理和虚拟传感器相关的特征组成，包括动作传感器、运行应用、附近设备和天气条件。此外，每个数据样本都与描述用户活动和传感实验中的情境（例如工作、就餐和运动活动）的基本真实标签相关联。为了避免引入数据收集过程中的任何偏差，我们在野外进行了传感实验，即使用志愿者的设备，并且没有限制用户行为。因此，收集的数据集对于定义和评估移动环境中根据用户情境变化调整行为的各种新颖背景感知解决方案（算法和协议）是一个有用的真实数据来源。

Jul, 2023

Android 手机和平板电脑间的双向 GUI 数据集构建

在当前普及的智能手机和平板电脑的背景下，应用程序经常存在于两种平台上。尽管应用程序在手机和平板电脑上共享大部分图形用户界面（GUI）和功能，但开发人员通常需要从头开始重建平板电脑版本，导致成本升高，并浪费现有的设计资源。研究人员正在尝试收集数据并使用深度学习在自动 GUI 开发中提高开发人员的生产力。目前，有一些公开可访问的 GUI 页面数据集用于手机，但没有关于手机和平板电脑之间的配对 GUI 的数据集。这对于在自动 GUI 开发中采用深度学习构成了重大障碍。在本文中，我们介绍了 Papt 数据集，一个专门为 Android 手机和平板电脑定制的先驱性配对 GUI 数据集，包括来自 5593 个唯一应用程序对的 10035 个手机 - 平板电脑 GUI 页面对。我们提出了新颖的配对 GUI 收集方法以构建此数据集，并详细说明了它相对于当前流行数据集的优势。通过对此数据集的初步实验，我们分析了在自动 GUI 开发中利用深度学习所面临的挑战。

Oct, 2023

将自然语言指令映射到移动 UI 操作序列

本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射，并结合数据标注与合成技术，对其进行了完整的任务评估，并在 PIXELHELP 数据集上达到了 70.59% 的准确率。

May, 2020

野外视频问答

提出了 WILDQA 数据集，包含视频问答（Video QA）和视频证据选择（Video Evidence Selection）两项任务，以在户外环境下录制的视频为主，对该数据集进行了广泛的基线测试和评估。

Sep, 2022

移动界面实现更优语义理解

通过对 RICO 数据集进行标注并使用多模态输入，该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法，使用户能够更好地了解 UI 元素的功能，并提出了一些创新性的功能，如通过标签引用 UI 元素，提高图标的语义等，以使 UI 对每个人都更加可用。

Oct, 2022

E-ANT：高效自动 GUI 导航的大规模数据集

在线 GUI 导航是一个研究热点，本文提出了一个新的、高质量的数据集 E-ANT，用于评估和开发 GUI 导航和大语言模型的决策能力。

Jun, 2024

Talk2Car: 控制自动驾驶汽车

本文提出了一个包含自然语言命令的自主驾驶汽车对象引用数据集，并与相关数据集进行了比较以及使用强大的最新模型进行了表现分析，该对象引用任务对于模型仍需要自然语言处理、计算机视觉以及这些领域的交叉研究进行进一步的研究。

Sep, 2019