Jun, 2024

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

TL;DR该研究论文介绍了一个新的数据集,名为 GUI-World,包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释,评估了当前最先进的 MLLMs(包括 ImageLLMs 和 VideoLLMs)在理解各种 GUI 内容方面的能力,发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容,而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而,作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步,展示了对各种 GUI 任务的改进理解,但由于基础 LLMs 的性能限制,使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战,研究为未来动态 GUI 内容理解的研究提供了有价值的见解。