通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成
本文提出一种使用 CLIP 模型和文本数据进行图像字幕生成的方法,只需学习如何将文本嵌入转化为文本,故只需学习一个将固定的嵌入解码的解码器,通过噪声注入进行训练,实现了 SOTA 零样本图像字幕生成。
Nov, 2022
提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索 - 过滤模块,使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架在一系列零样本图像字幕设置中取得了最先进的性能。
Mar, 2024
该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基准测试中表现优异。
Mar, 2023
本文介绍了一种名为 Knight 的基于 K 最近邻跨模态映射的零样本图像和视频描述生成方法,利用文本无监督训练实现了图像和视频描述的最新零样本表现。
Apr, 2023
本文介绍了一种将视觉语义模型和大型语言模型相结合的技术,实现了对图像生成描述性文本的能力,且可用于图像算术和视觉类比等高级视觉能力的应用。
Nov, 2021
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法,采用图像特征生成文本特征,实现了对文本数据的无缝融合。实验结果表明,该方法在标准文本到图像生成任务中取得了最好的表现,并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外,我们的方法可以应用于微调预训练模型,从而节省文本到图像生成模型的培训时间和成本。
Nov, 2021
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练,在这种协议下,我们不假设对任何视频有标签的访问,即没有对应用真实字幕的视频集的访问权限;但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景,因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近,零样本学习的图像专家,如 CLIP 已经为视频理解任务建立了强大的基准线。在本文中,我们利用这一进展,实例化两种类型的图像专家模型:文本到图像检索模型用于提供初始骨架,以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧,可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征,进而在文本到视频检索任务中胜过强大的零样本学习基准线 CLIP。在训练过程中,我们从多个最佳匹配视觉内容的视频帧中采样字幕,并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解,并通过在三个标准数据集(ActivityNet、MSR-VTT 和 MSVD)上胜过 CLIP 的零样本学习基准线来证明这个简单框架的有效性。
Apr, 2024
本文提出了一种基于深度神经网络的文本到图像生成算法,使用预训练的 CLIP 模型和变分推断的方式,优化算法并取得了在无监督和半监督文本图像生成任务下 beat state-of-the-art 的结果。
Mar, 2023