GPT-4V 的进展:通过开源套件缩小与商业多模型的差距
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到 60 亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023
在先进的多模式学习时代,本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型,通过小型骨干网络实现了高效的语言 - 视觉交互,为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。
Dec, 2023
利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案,通过合成数据集,我们训练了 ALLaVA 模型,该模型在 12 个基准测试中取得了竞争性的性能,展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。
Feb, 2024
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
InternLM-XComposer2-4KHD 是一项具有里程碑意义的研究,通过引入动态分辨率和自动分片配置的新方法,将 LVLM 的分辨率能力提升到 4K HD 并在多个方面取得了卓越的性能提升。
Apr, 2024
为了追求人工通用智能(AGI),将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型(MLLMs)的出现,如 GPT-4V,扩展了人工智能应用程序,与人脑的多模态能力相匹配。然而,评估 MLLMs 的有效性面临着重大挑战,因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询,并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题,我们引入了 MLLM-Bench,这是一个受 Vicuna 启发的创新基准,涵盖了各种场景,包括感知、理解、应用、分析、评估和创作,以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验,并提供了对模型性能更全面的评估。对比评估结果表明,现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为,MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。
Nov, 2023
本文介绍了 MiniGPT-4 模型,该模型利用像 GPT-4 这样的先进的大型语言模型(LLM)与视觉编码器对齐,可以生成详细的图像描述和从手写草图中创建网站等多重能力,采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。
Apr, 2023
NLP 模型通过在视觉推理任务上的测试,评估了多语言、多模态方面的能力。通过分析模型的失败,提出了三个针对性干预措施,包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能,并稍微改善了 GPT-4V 的性能。
Mar, 2024
在大型多模态模型领域,高效的模态对齐对于提升模型性能至关重要,但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈,我们介绍了 ShareGPT4V 数据集,这是一个包含 120 万条高度描述性的标题的创新大规模资源,其在多样性和信息内容上超越了现有数据集,涵盖了世界知识、对象属性、空间关系和美学评估。具体来说,ShareGPT4V 源于 Advanced GPT4-Vision 收集的 10 万个高质量标题,通过在该子集上进行训练,将其扩展到 120 万个。ShareGPT4V 首先在监督微调(SFT)阶段展示了其有效性,通过用高质量标题子集替换现有 SFT 数据集中等量的详细标题,显著提升了 MME 和 MMBench 基准测试中的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMMs 模型,分别增益为 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据集融入到预训练和 SFT 阶段,获得了 ShareGPT4V-7B,一个基于简单架构的优秀 LMM 模型,其在大多数多模态基准测试上表现出色。该项目可通过此 https 链接获得,以服务于 LMMs 社区的进一步发展。
Nov, 2023