VGA: 视觉 GUI 助手 -- 通过图像中心的微调减少幻觉

Jun, 2024

VGA: 视觉 GUI 助手 -- 通过图像中心的微调减少幻觉

VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning

Ziyang Meng, Yu Dai, Zezheng Gong, Shaoxiong Guo, Minglong Tang...

TL;DR我们提出了一种名为 VGA 的细调模型，旨在提升对图形用户界面（GUI）的理解能力，减少幻觉和错误响应。我们构建了一个 63.8k 高质量示例的 Vision Question Answering（VQA）数据集，并设计了一种名为 Foundation and Advanced Comprehension（FAC）的两阶段细调方法来增强对图像内容的信息提取能力和与人类意图的对齐。实验证明我们的方法提高了从图像中提取信息的能力，并在 GUI 理解任务中取得了最新的成果。我们的数据集和细调脚本将很快发布。

Abstract

Recent advances in large vision-language models (LVLMs) have significantly improve performance in image comprehension tasks, such as formatted charts and rich-content images. Yet, graphical user interface (GUI) p

large vision-language models graphical user interface gui comprehension vqa dataset fine-tuning method

发现论文，激发创造

FGAIF：用细粒度 AI 反馈对齐大规模的视觉语言模型

通过 Fine-Grained 人工智能反馈以及基于强化学习将多模态对齐，解决了 Large Vision-Language Models 中的幻觉问题，提高了模型的性能。

Apr, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉

对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明 VDGD 在减少幻觉方面显著优于其他基线方法。

May, 2024

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力

通过细粒度的奖励建模，ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果，该方法使用较便宜的人工评估和自动化方法，有效地减少了视觉输入的不准确性问题，并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。

Feb, 2024

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

通过对标题重写的方式，利用大型视觉语言模型进行微调来减轻细粒度的幻觉

本文介绍了 ReCaption, 一个用于减少视觉 - 语言模型中细粒度物体幻觉的框架，并通过实验证明其有效性。

Dec, 2023

医学视觉问答中的幻觉基准

最近大型语言和视觉模型在视觉问答（VQA）方面取得的成功，特别是在医学领域的应用（Med-VQA），表明实现有效的医疗视觉助手具有巨大潜力。然而，这些模型在临床环境中并没有经过广泛测试，我们在这里创建了一种医学图像的幻觉基准，并对最先进的模型进行了全面评估。该研究对当前模型的局限性进行了深入分析，并揭示了各种提示策略的有效性。

Jan, 2024