通过重新标注语料库并以此为基础训练文本到图像模型,可以显著提高模型的图像质量和语义对齐,并减少训练与推理之间的差异,增加样例效率,使模型更好地理解标题和图像之间的关系。
Oct, 2023
该论文描述了一种基于自检索模块的图像字幕生成框架,通过训练引导生成鉴别性的字幕并无需人工标注,从而提高图像字幕的性能。
Mar, 2018
用训练图像字幕模型的教师强迫方法生成的样本非常通用,而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略,其中利用了不同方式的真实字幕,从而在保持高写作质量的同时生成高度独特的字幕。
Feb, 2024
本文提出了一种使用指导文本来控制图像标题关注点的方法,使用基于 Transformer 的多模态编码器来生成标题,通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题,指导标题模型可较好地泛化用于外部领域的图像和指导文本,提高模型性能的关键因素是增加样式的多样性。
Dec, 2020
通过有标签的图片和物体检测数据教授图像字幕模型学习新的视觉概念,通过有限状态自动机表示部分指定的序列数据并提出了一种新颖的算法,可以训练神经网络。在图像字幕任务中,我们取得了基于 COCO 数据集的最新物体字幕任务的最先进结果,并进一步表明,我们可以训练一个字幕模型来描述来自 Open Images 数据集的新的视觉概念,同时保持竞争性的 COCO 评估得分。
Jun, 2018
本文提出了一种在编码器 - 解码器框架下加入引导网络的方法,以模拟输入图像的属性特征为该任务带来了显著的性能提升,并通过在 MS COCO 数据集上进行的实验进行了验证。
Apr, 2018
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕,并且通过使用双编码器来对音频和图像进行编码,使用掩码边界软最大损失对这些模型进行微调,并在 Flickr8k 音频字幕语料库上实现了最新的结果。
Sep, 2019
本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述,引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准,并提出了一种简单有效的训练策略,通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性,通过与现有最先进的模型的性能比较,我们宣称我们的模型在独特性目标上达到了新的最先进水平。
Aug, 2022