RegionGPT:面向区域理解的视觉语言模型
通过数据处理和深度信息集成,Spatial Region GPT (SpatialRGPT) 提升了 Vision Language Models (VLMs) 的空间感知和推理能力,并且在空间推理任务中显著提高了性能。
Jun, 2024
通过引入具有明确区域建模能力的 RegionVLM 模型,并利用包含区域信息的 Localized Narratives 数据集,我们的实验表明,我们的单一通用模型不仅实现了交互式对话系统,还在各种零样本区域理解任务上展现出了卓越的性能,而不会损害其对全局图像的理解能力。
Mar, 2024
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap 包括 2,585 个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在 RS 领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集 RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在 RS 背景下的视觉语言模型。
Jul, 2023
通过对视觉线索进行引导,使用对比区域引导(CRG)方法可以提高视觉 - 语言模型(VLMs)在多种视觉 - 语言任务上的性能,减少模型偏见,提高准确性。
Mar, 2024
通过对感兴趣区域实施指导调整,我们提出了一种名为 GPT4RoI 的区域级别视觉语言模型,拥有图像级别理解以外的全新对话和互动体验。
Jul, 2023
VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
本文介绍了一种可伸缩的 Language-Vision GPT(LV-GPT)模型,它将 GPT2 模型扩展到包括视觉输入(图像),以改进机器人手术中的视觉问题回答(VQA)任务,该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。
Apr, 2023
本论文提出 IdealGPT 框架,通过大语言模型迭代地分解 VL 推理,以解决零样本推理领域中多步推理问题。我们的 IdealGPT 在多个具有挑战性的 VL 推理任务中表现优异,特别是在 VCR 和 SNLI-VE 中相对最好的 GPT-4 模型提高了 10%和 15%。
May, 2023
本文提出了一种名为 PerceptionGPT 的新型端到端框架,通过利用 LLMs 的 token 嵌入的表示能力,高效有效地赋予 VLLMs 视觉感知能力。该方法以 LLMs 的 token 嵌入作为空间信息的携带者,利用轻量级的视觉任务编码器和解码器执行视觉感知任务(如检测、分割),有效缓解了以往将视觉输出离散化为 token 的训练困难,并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外,由于推理过程中只需要一个 token 嵌入来解码视觉输出,结果序列长度可大幅减少。因此,该方法能够实现准确灵活的表示,无缝集成视觉感知任务,并高效处理多个视觉输出,通过广泛的实验证实了该方法的有效性和效率,结果表明,在更少的可训练参数和 GPU 时间的情况下取得了显著的改进,为未来赋予 LLMs 视觉感知能力的研究提供了便利。
Nov, 2023
利用大型视觉 - 语言模型进行多模态推荐的研究中,研究人员通过引入用户历史和基于图像摘要生成的查询方式,克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题,并验证了该方法的有效性。
Feb, 2024