ShareGPT4V：改进大型多模态模型的更好标题

Nov, 2023

ShareGPT4V：改进大型多模态模型的更好标题

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He...

TL;DR在大型多模态模型领域，高效的模态对齐对于提升模型性能至关重要，但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈，我们介绍了 ShareGPT4V 数据集，这是一个包含 120 万条高度描述性的标题的创新大规模资源，其在多样性和信息内容上超越了现有数据集，涵盖了世界知识、对象属性、空间关系和美学评估。具体来说，ShareGPT4V 源于 Advanced GPT4-Vision 收集的 10 万个高质量标题，通过在该子集上进行训练，将其扩展到 120 万个。ShareGPT4V 首先在监督微调（SFT）阶段展示了其有效性，通过用高质量标题子集替换现有 SFT 数据集中等量的详细标题，显著提升了 MME 和 MMBench 基准测试中的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMMs 模型，分别增益为 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据集融入到预训练和 SFT 阶段，获得了 ShareGPT4V-7B，一个基于简单架构的优秀 LMM 模型，其在大多数多模态基准测试上表现出色。该项目可通过此 https 链接获得，以服务于 LMMs 社区的进一步发展。

Abstract

In the realm of large multi-modal models (lmms), efficient modality alignment is crucial yet often constrained by the scarcity of high-quality image-text data. To address this bottleneck, we introduce the

multi-modal models sharegpt4v dataset high-quality captions supervised fine-tuning lmms

发现论文，激发创造

ShareGPT4Video: 提升视频理解与生成，优化字幕

通过稠密和精确的字幕，在大视频 - 语言模型（LVLMs）的视频理解和文本 - 视频模型（T2VMs）的视频生成方面，我们提出了 ShareGPT4Video 系列，该系列包括 40K GPT4V 标注的各种长度和来源的视频稠密字幕，通过精心设计的数据过滤和注释策略进行开发，以及有效的任意视频字幕模型 ShareCaptioner-Video 和卓越的 LVLM ShareGPT4Video-8B。

Jun, 2024

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发

利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案，通过合成数据集，我们训练了 ALLaVA 模型，该模型在 12 个基准测试中取得了竞争性的性能，展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。

Feb, 2024

GeoGPT4V：朝向具有几何图像生成能力的几何多模式大型语言模型

使用 GPT-4 和 GPT-4V 生成对齐的文本和图像的几何问题数据集 GeoGPT4V，显著提高了各种模型在 MathVista 和 MathVision 基准测试中的几何性能。

Jun, 2024

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型

在先进的多模式学习时代，本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型，通过小型骨干网络实现了高效的语言 - 视觉交互，为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。

Dec, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

HuatuoGPT-Vision，面向大规模注入医学视觉知识的多模态语言模型

通过使用 PubMedVision 数据集，我们对医学图像和文本进行了精炼和重构，从而改善了当前 MLLM 的医学多模态能力，并在医学多模态场景中展现了卓越的性能。

Jun, 2024

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

VisualGPT：预训练语言模型数据有效适配图像字幕生成

本研究提出了 VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1％，0.5％和 1％的训练，结果表明，我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8％，在 Conceptual Captions 上高达 5.4％，并在医学报告生成数据集 IU X-ray 上取得了最新的结果。

Feb, 2021