ILuvUI：从机器对话中调整的语言 - 视觉用户界面建模

Oct, 2023

ILuvUI：从机器对话中调整的语言 - 视觉用户界面建模

ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations

Yue Jiang, Eldon Schoop, Amanda Swearngin, Jeffrey Nichols

TL;DR使用生成配对文本 - 图像训练数据的方法，无需人工提供注释，适用于任何 UI 截图数据集，通过将现有的基于像素的方法与大型语言模型（LLM）相结合，对 UI 领域的 VLM 进行自动微调，以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。

Abstract

multimodal vision-language models (VLMs) enable powerful applications from their fused understanding of images and language, but many perform poorly on UI tasks due to the lack of ui training data. In this paper,

multimodal vision-language models ui training data recipe for generating paired text-image training data conversational examples ui element detection tasks

发现论文，激发创造

ILLUME: 通过人类交互合理化视觉语言模型

本研究旨在提出使用人与机器生成数据进行调整范例，以改进视觉语言模型的常识推理与人类意图的一致性，结果发现我们的 ILLLUME 方式可有效改善模型的推理能力，并仅需较少的训练数据以及极少数反馈。

Aug, 2022

训练一种视觉语言模型作为智能手机助手

利用大型语言模型和视觉语言模型，我们的研究致力于解决数字助理执行各种用户任务的挑战，特别是在基于指令的移动设备控制领域。通过与用户界面进行交互，我们的模型利用设备屏幕的视觉输入并模拟人类般的交互，包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是，我们的模型不仅仅操作单个屏幕图像，还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。

Apr, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

不需重训练的扩展冻结视觉 - 语言模型：朝着改进机器人感知能力迈进

通过对齐不同类型嵌入空间的方法，本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果，从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。

Aug, 2023

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

UICoder: 通过自动反馈对大型语言模型进行微调以生成用户界面代码

通过使用自动生成的合成数据集和自动化工具，我们改进了现有的大型语言模型（LLMs），使其能够生成高质量的用户界面（UI）代码，并通过与其他基准模型的比较证明了我们的方法的有效性。

Jun, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

利用大型语言模型实现移动界面的交互式对话功能

本文旨在通过预训练大型语言模型及相应的提示技术，实现轻量级、可通用的基于自然语言的手机交互，解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明，针对移动 UI 设计的四项重要建模任务中，我们的方法在不需要专用数据集和训练的情况下，取得了令人满意的竞争成绩。

Sep, 2022

分析基于视觉条件的语言模型的设计空间：棱镜式 VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

MyVLM: 为用户特定查询个性化 VLM

对于个性化视觉 - 语言模型，我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合，并将其应用于个性化图像字幕生成和个性化视觉问答，结果表明模型可以推广到学习概念的未见图像，并保持在无关输入上的模型行为。

Mar, 2024