MeaCap: 存储增强的零样本图像描述
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。
Jan, 2024
该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基准测试中表现优异。
Mar, 2023
本文介绍了一种将视觉语义模型和大型语言模型相结合的技术,实现了对图像生成描述性文本的能力,且可用于图像算术和视觉类比等高级视觉能力的应用。
Nov, 2021
多场景和多语言的视觉描述生成中,我们提出了一种简单而有效的零样本方法 MultiCapCLIP,它可以在不需要标注视觉 - 描述对的情况下,为不同的场景和语言生成视觉描述,并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。
Aug, 2023
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
我们提出了 ViECap,一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体,实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下,ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域(可转移)字幕生成方面的最新水平,并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。
Jul, 2023
为了提供更高质量和更可扩展的多模态预训练数据,我们提出了 CapsFusion,一种先进的框架,利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明,CapsFusion 字幕在模型性能(例如,COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8%和 18.3%)、样本效率(比基准计算需求少 11-16 倍)、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。
Oct, 2023
ZerAuCap 是一个新的框架,利用预训练的大型语言模型来生成既不需要任务特定训练,又能描述音频内容的文本标注,通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本,使用音频上下文关键词来生成广义的文本,在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。
Nov, 2023
使用图像和标题的联合信息进行预训练可提高图像表征能力,该方法通过 image-conditioned masked language modeling(ICMLM)任务来实现,训练出的表征能够成功应用于多种目标任务。
Aug, 2020
我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练,在这种协议下,我们不假设对任何视频有标签的访问,即没有对应用真实字幕的视频集的访问权限;但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景,因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近,零样本学习的图像专家,如 CLIP 已经为视频理解任务建立了强大的基准线。在本文中,我们利用这一进展,实例化两种类型的图像专家模型:文本到图像检索模型用于提供初始骨架,以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧,可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征,进而在文本到视频检索任务中胜过强大的零样本学习基准线 CLIP。在训练过程中,我们从多个最佳匹配视觉内容的视频帧中采样字幕,并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解,并通过在三个标准数据集(ActivityNet、MSR-VTT 和 MSVD)上胜过 CLIP 的零样本学习基准线来证明这个简单框架的有效性。
Apr, 2024