ConZIC: 基于采样平滑的可控零样本图像字幕生成

CVPRMar, 2023

ConZIC: 基于采样平滑的可控零样本图像字幕生成

ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing

Zequn Zeng, Hao Zhang, Zhengjue Wang, Ruiying Lu, Dongsheng Wang...

TL;DR本研究提出了一种名为 ConZIC 的可控零样本图像字幕生成框架，其中核心是一种称为 GibbsBERT 的采样式非自回归语言模型，与 ZeroCap 相比，ConZIC 在保证准确性的情况下，生成速度可达 5 倍以上，多样性指标高出 1.5 倍。

Abstract

zero-shot capability has been considered as a new revolution of deep learning, letting machines work on tasks without curated training data. As a good start and the only existing outcome of zero-shot image captioning

zero-shot capability deep learning image captioning non-autoregressive language model controllability

发现论文，激发创造

MeaCap: 存储增强的零样本图像描述

提出了一种新颖的记忆增强型零样本图像字幕生成框架（MeaCap），通过装备文本记忆并引入检索 - 过滤模块，使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型，生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕；该框架在一系列零样本图像字幕设置中取得了最先进的性能。

Mar, 2024

ZeroCap：面向视觉语义算术的零样本图像到文本生成

本文介绍了一种将视觉语义模型和大型语言模型相结合的技术，实现了对图像生成描述性文本的能力，且可用于图像算术和视觉类比等高级视觉能力的应用。

Nov, 2021

CICA：零样本文档图像分类中的内容注入对齐

我们在零样本学习（Zero-Shot Learning，ZSL）和广义零样本学习（Generalized Zero-Shot Learning，GZSL）的环境中提供了对文档图像分类进行全面分析的方法和评价，同时提出了适用于 RVL-CDIP 数据集的零样本划分和一个名为 CICA 的框架，该框架通过引入一种全新的 ' 内容模块 '，可以提升 CLIP 的零样本学习能力，我们的模块只增加了 CLIP 的 3.3% 参数，并将其 ZSL 的 Top-1 准确率提高了 6.7%，GZSL 的调和平均值提高了 24%，这项工作为零样本文档分类的未来研究指明了方向。

May, 2024

半自回归式图像字幕

该研究提出了一种新的两阶段模型，称为半自回归图像字幕生成模型，使用部分先验信息和图像特征，先以自回归方式生成一个间歇性序列，然后使用迭代的非自回归方式填充所有跳过的单词，可以更好地权衡性能和速度，并在 MS COCO 基准测试上得到更好的表现和竞争性推理加速。

Oct, 2021

多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法 MultiCapCLIP，它可以在不需要标注视觉 - 描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。

Aug, 2023

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

DeCap：通过纯文本训练对 CLIP 潜变量进行解码，实现零样本描述

该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题，通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求，并提出了一个训练 - free 机制来减少模态间差异。实验证明，DeCap 在典型的图像说明基准测试中表现优异。

Mar, 2023

具有动词特定语义角色的类人可控图像标题生成

提出了新的控制信号，基于 Controllable Image Captioning (CIC)，包括顶点特定语义角色 (VSR)，通过基于地面的语义角色标记模型 (GSRL) 训练来确定所有实体对于每个角色，借助语义结构计划器（SSP）学习像人类一样的描述性语义结构，并使用角色转移字幕模型生成字幕。

Mar, 2021

在零样本音频字幕中使用音频 - 语言模型引导和音频上下文关键词

ZerAuCap 是一个新的框架，利用预训练的大型语言模型来生成既不需要任务特定训练，又能描述音频内容的文本标注，通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本，使用音频上下文关键词来生成广义的文本，在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。

Nov, 2023

将人类放入图像字幕循环中

通过人工反馈训练图像字幕模型，使其适应特定用户数据，并采用稀疏记忆重播组件避免灾难性遗忘，从而实现自定义图像字幕模型。

Jun, 2023