GeoGPT4V:朝向具有几何图像生成能力的几何多模式大型语言模型
利用图像输入,通过理解几何问题,使大型语言模型能够解决几何问题,构建了一个丰富的多模态几何数据集 Geo170K,发展了 G-LLaVA, 在 MathVista 基准测试上以仅有 7B 参数显著优于 GPT-4-V。
Dec, 2023
在大型多模态模型领域,高效的模态对齐对于提升模型性能至关重要,但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈,我们介绍了 ShareGPT4V 数据集,这是一个包含 120 万条高度描述性的标题的创新大规模资源,其在多样性和信息内容上超越了现有数据集,涵盖了世界知识、对象属性、空间关系和美学评估。具体来说,ShareGPT4V 源于 Advanced GPT4-Vision 收集的 10 万个高质量标题,通过在该子集上进行训练,将其扩展到 120 万个。ShareGPT4V 首先在监督微调(SFT)阶段展示了其有效性,通过用高质量标题子集替换现有 SFT 数据集中等量的详细标题,显著提升了 MME 和 MMBench 基准测试中的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMMs 模型,分别增益为 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据集融入到预训练和 SFT 阶段,获得了 ShareGPT4V-7B,一个基于简单架构的优秀 LMM 模型,其在大多数多模态基准测试上表现出色。该项目可通过此 https 链接获得,以服务于 LMMs 社区的进一步发展。
Nov, 2023
最近,GPT-4 语言模型与视觉能力相结合,我们对 GPT-4V 和其他五个基准模型进行了提示评估,包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought,在多模态 LLMs 上的扩展,在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析,突出了一致性多模态推理所面临的挑战。
Dec, 2023
使用 GPT-4V 模型进行多模态异态检测任务,包括图像、视频、点云和时间序列数据,在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中,通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中,GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式,从而能够准确区分正常和异常实例,展现出潜在的通用异态检测能力,为异态检测开辟了新的方法。
Nov, 2023
本文介绍了 MiniGPT-4 模型,该模型利用像 GPT-4 这样的先进的大型语言模型(LLM)与视觉编码器对齐,可以生成详细的图像描述和从手写草图中创建网站等多重能力,采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。
Apr, 2023
在先进的多模式学习时代,本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型,通过小型骨干网络实现了高效的语言 - 视觉交互,为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。
Dec, 2023
远程传感图像智能理解模型正在经历一个深刻的新范式转变,即从学习域模型的范式转变为先学习预训练的通用基础模型,然后再进行自适应域模型的范式。在新的自适应域模型范式下,过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务:1) 泛化性:训练模型学习多个任务之间的共享知识,并适应不同的任务;2) 理解复杂场景:训练模型理解感兴趣对象的细粒度属性,并能用自然语言描述场景;3) 推理能力:训练模型能够实现高层次的视觉推理。本文设计了一个由 GPT-4V 和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集,我们称之为 RS-GPT4V。为了实现泛化性,我们使用了由 GPT-4V 通过指令跟踪引导推导出来的(问题,答案)对来统一诸如字幕和定位等任务;为了实现复杂场景,我们提出了一种具有局部策略的分层指令描述方式,描述了对象的细粒度属性和它们的空间关系,并具有全局策略将所有局部信息集成以生成详细的指令描述;为了实现推理能力,我们设计了多轮问答对来为模型提供推理能力。实证结果表明,通过 RS-GPT4V 微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取:https://example.com
Jun, 2024
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
对大型视觉语言模型在地球观测数据中的能力进行了评估,发现其在场景理解和空间推理等任务上表现出色,但在物体定位和计数任务上有一定局限性,因此提出了一个全面的评估基准。
Jan, 2024