利用 LLaMA-3 对数十亿网络图像进行重新字幕

Jun, 2024

利用 LLaMA-3 对数十亿网络图像进行重新字幕

What If We Recaption Billions of Web Images with LLaMA-3?

Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao...

TL;DR通过使用 LLaMA-3 构建的 recaptioning pipeline，我们提供了一个改进的数据集 Recap-DataComp-1B，可以显著改善高级视觉语言模型的训练，包括 CLIP 和 text-to-image Diffusion Transformers。

Abstract

web-crawled image-text pairs are inherently noisy. Prior studies demonstrate that semantically aligning and enriching textual descriptions of these pairs can significantly enhance model training across various vision-language tasks, particularly →

web-crawled image-text pairs text-to-image generation llama-3 recaptioning pipeline enhanced dataset

发现论文，激发创造

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

一图胜千言：原则性重描述提升图像生成

通过重新标注语料库并以此为基础训练文本到图像模型，可以显著提高模型的图像质量和语义对齐，并减少训练与推理之间的差异，增加样例效率，使模型更好地理解标题和图像之间的关系。

Oct, 2023

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发

利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案，通过合成数据集，我们训练了 ALLaVA 模型，该模型在 12 个基准测试中取得了竞争性的性能，展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。

Feb, 2024

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

视觉语言预训练数据压缩

该论文提出一种名为 TL;DR 的视觉语言学习算法，它利用基于编码器 - 解码器的编码器来选择代表性样本，并生成新的标题，旨在将现有的大规模 VLP 数据压缩为小高质量数据集。实验证明，使用 TL;DR 压缩后的数据集能够在许多下游任务中提供与完整数据集相似或甚至更好的结果。

May, 2023

VisualGPT：预训练语言模型数据有效适配图像字幕生成

本研究提出了 VisualGPT，一种数据高效的图像字幕模型，它利用了预先训练的语言模型中获得的语言知识，使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响，我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1％，0.5％和 1％的训练，结果表明，我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8％，在 Conceptual Captions 上高达 5.4％，并在医学报告生成数据集 IU X-ray 上取得了最新的结果。

Feb, 2021

基于大型语言模型的自动卫星图像描述生成

自动遥感图像字幕生成技术与大规模数据集、大型语言模型、遥感技术和基准模型等相关，能够解决遥感图像字幕生成领域的瓶颈问题。

Oct, 2023

GeReA: 针对基于知识的视觉问答的问题感知提示标题

我们提出了一种名为 GeReA 的生成 - 推理框架，利用视觉和语言信息激活了多模态大语言模型（MLLM）作为隐式知识引擎，用于基于知识的视觉问答，它在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3%，超过了所有先前的最先进方法。

Feb, 2024