Jun, 2024

从用户界面轨迹识别用户目标

TL;DR介绍了从观察到的用户界面轨迹中抽取目标的任务,并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系,利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验,与人类和最先进的模型(GPT-4 和 Gemini-1.5 Pro)进行了比较,结果显示 Gemini 的表现优于 GPT 但仍不及人类,表明有很大的改进空间。