利用 LLaMA-3 对数十亿网络图像进行重新字幕
通过在大规模语言模型中生成详细描述的长标题,我们提出了一种动态采样子标题的方法,以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练,实验证明该方法在多种下游任务上具有明显优势。
Mar, 2024
通过重新标注语料库并以此为基础训练文本到图像模型,可以显著提高模型的图像质量和语义对齐,并减少训练与推理之间的差异,增加样例效率,使模型更好地理解标题和图像之间的关系。
Oct, 2023
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于 web 爬取数据集训练的新方法 VeCLIP,通过综合评估数据效率和模型性能,证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。
Oct, 2023
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案,通过合成数据集,我们训练了 ALLaVA 模型,该模型在 12 个基准测试中取得了竞争性的性能,展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。
Feb, 2024
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得 5.6〜35.0%和 16.8〜46.1%的 R@1 提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对 MLLMs 的多方面使用的探索。
Nov, 2023
该论文提出一种名为 TL;DR 的视觉语言学习算法,它利用基于编码器 - 解码器的编码器来选择代表性样本,并生成新的标题,旨在将现有的大规模 VLP 数据压缩为小高质量数据集。实验证明,使用 TL;DR 压缩后的数据集能够在许多下游任务中提供与完整数据集相似或甚至更好的结果。
May, 2023
本研究提出了 VisualGPT,一种数据高效的图像字幕模型,它利用了预先训练的语言模型中获得的语言知识,使用自重生编码器 - 解码器注意机制在少量领域训练数据上快速适应预训练的语言模型,并通过稀疏激活单元减少了零梯度的影响,我们在 MSCOCO 和 Conceptual Captions 数据集上进行 0.1%,0.5%和 1%的训练,结果表明,我们在 MS COCO 上的 CIDEr 得分最好的基线模型高达 10.8%,在 Conceptual Captions 上高达 5.4%,并在医学报告生成数据集 IU X-ray 上取得了最新的结果。
Feb, 2021
我们提出了一种名为 GeReA 的生成 - 推理框架,利用视觉和语言信息激活了多模态大语言模型(MLLM)作为隐式知识引擎,用于基于知识的视觉问答,它在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3%,超过了所有先前的最先进方法。
Feb, 2024