CapEnrich: 通过跨模态预训练知识为 Web 图像增加标题语义

WWWNov, 2022

CapEnrich: 通过跨模态预训练知识为 Web 图像增加标题语义

CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge

Linli Yao, Weijing Chen, Qin Jin

TL;DR本文提出了一种基于 Vision-Language Pre-training 模型的插拔式框架 CapEnrich，通过自动数据构建策略和可学习 / 模板提示策略，为万维网上的无标签图片生成更加完整，丰富和具备语义的文本描述，从而将其应用于多模态检索和推荐等实际应用中。

Abstract

Automatically generating textual descriptions for massive unlabeled images on the web can greatly benefit realistic web applications, e.g. multimodal retrieval and recommendation. However, existing models suffer from the problem of generating ``over-generic'' descriptions, such as thei

textual descriptions image descriptions vision-language pre-training plug-and-play framework semantic details

发现论文，激发创造

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

突破通用：利用视觉语言预训练模型增强图像字幕生成的实际知识

利用视觉 - 语言预训练模型（VLP）和知识引导回放（K-Replay）方法，将大规模网络收集的知识融入图像描述中，以提高其准确度和知识识别能力。

Aug, 2023

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

RefineCap: 图像字幕的概念感知细化

该论文提出了一种新型模型 RefineCap，使用解码器引导的视觉语义来完善语言解码器的输出词汇，并隐式地学习图像与视觉标签词之间的映射，其提出的视觉概念完善方法可允许生成器关注图像中的语义细节，从而生成更具有语义描述性的标题。在与以前基于视觉概念的模型相比，我们的模型在 MS-COCO 数据集上实现了优越的性能。

Sep, 2021

CapsFusion: 大规模重塑图像 - 文本数据

为了提供更高质量和更可扩展的多模态预训练数据，我们提出了 CapsFusion，一种先进的框架，利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明，CapsFusion 字幕在模型性能（例如，COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8％和 18.3％）、样本效率（比基准计算需求少 11-16 倍）、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。

Oct, 2023

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

FlexCap: 在图像中生成丰富、本地化和灵活的标题

我们介绍了一种多功能的 “灵活字幕” 视觉语言模型（VLM），能够生成长度各异的区域特定描述。该模型 FlexCap 训练用于为输入边界框生成长度条件化的字幕，从而控制其输出的信息密度，从简要的物体标签到详细的字幕不等。通过创建大规模的训练数据集，从带字幕的图像开始，我们实现了这一灵活字幕的功能，并展示了其在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。

Mar, 2024