Oct, 2023

ILuvUI:从机器对话中调整的语言 - 视觉用户界面建模

TL;DR使用生成配对文本 - 图像训练数据的方法,无需人工提供注释,适用于任何 UI 截图数据集,通过将现有的基于像素的方法与大型语言模型(LLM)相结合,对 UI 领域的 VLM 进行自动微调,以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。