ConZIC: 基于采样平滑的可控零样本图像字幕生成
提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索 - 过滤模块,使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架在一系列零样本图像字幕设置中取得了最先进的性能。
Mar, 2024
本文介绍了一种将视觉语义模型和大型语言模型相结合的技术,实现了对图像生成描述性文本的能力,且可用于图像算术和视觉类比等高级视觉能力的应用。
Nov, 2021
我们在零样本学习(Zero-Shot Learning,ZSL)和广义零样本学习(Generalized Zero-Shot Learning,GZSL)的环境中提供了对文档图像分类进行全面分析的方法和评价,同时提出了适用于 RVL-CDIP 数据集的零样本划分和一个名为 CICA 的框架,该框架通过引入一种全新的 ' 内容模块 ',可以提升 CLIP 的零样本学习能力,我们的模块只增加了 CLIP 的 3.3% 参数,并将其 ZSL 的 Top-1 准确率提高了 6.7%,GZSL 的调和平均值提高了 24%,这项工作为零样本文档分类的未来研究指明了方向。
May, 2024
该研究提出了一种新的两阶段模型,称为半自回归图像字幕生成模型,使用部分先验信息和图像特征,先以自回归方式生成一个间歇性序列,然后使用迭代的非自回归方式填充所有跳过的单词,可以更好地权衡性能和速度,并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。
Oct, 2021
多场景和多语言的视觉描述生成中,我们提出了一种简单而有效的零样本方法 MultiCapCLIP,它可以在不需要标注视觉 - 描述对的情况下,为不同的场景和语言生成视觉描述,并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。
Aug, 2023
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基准测试中表现优异。
Mar, 2023
提出了新的控制信号,基于 Controllable Image Captioning (CIC),包括顶点特定语义角色 (VSR),通过基于地面的语义角色标记模型 (GSRL) 训练来确定所有实体对于每个角色,借助语义结构计划器(SSP)学习像人类一样的描述性语义结构,并使用角色转移字幕模型生成字幕。
Mar, 2021
ZerAuCap 是一个新的框架,利用预训练的大型语言模型来生成既不需要任务特定训练,又能描述音频内容的文本标注,通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本,使用音频上下文关键词来生成广义的文本,在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。
Nov, 2023