Jun, 2024

VGA: 视觉 GUI 助手 -- 通过图像中心的微调减少幻觉

TL;DR我们提出了一种名为 VGA 的细调模型,旨在提升对图形用户界面(GUI)的理解能力,减少幻觉和错误响应。我们构建了一个 63.8k 高质量示例的 Vision Question Answering(VQA)数据集,并设计了一种名为 Foundation and Advanced Comprehension(FAC)的两阶段细调方法来增强对图像内容的信息提取能力和与人类意图的对齐。实验证明我们的方法提高了从图像中提取信息的能力,并在 GUI 理解任务中取得了最新的成果。我们的数据集和细调脚本将很快发布。