纯文本合成图像描述
本文提出了一种新的多情景数据生成框架用于提高文本图像注释的训练数据,该框架使用扩散模型生成复杂和简单图像,并在 MSCOCO、Flickr30k 和 SS1M 等数据集上实现了最先进的表现。
May, 2023
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。
Jan, 2024
本研究提出了一种新方法,通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像,并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征,同时利用图像中的显著对象来增强模态对齐的学习。实验证明,该方法在基准数据集上取得了最先进的性能。
Dec, 2023
该论文提出了一种基于深度生成模型的多个描述生成图片的方法,并通过对 CUB 和 Oxford-102 Flowers 数据集的实验结果证实了该方法的有效性。
Sep, 2018
本文介绍了一种名为 CoCa 的对比式注解器,它使图像和文本的编码器和解码器能够预先训练。与标准的编码器 - 解码器变压器不同的是,在解码器的前半段中省略跨关注,以编码单模态文本表示形式,并级联其余解码器层,以便对图像编码器进行跨模态图像文本表示形式的跨关注。CoCa 以无缝方式将所有标签视为文本进行训练,并在各种视觉任务上实现了最先进的性能。
May, 2022
为了提供更高质量和更可扩展的多模态预训练数据,我们提出了 CapsFusion,一种先进的框架,利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明,CapsFusion 字幕在模型性能(例如,COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8%和 18.3%)、样本效率(比基准计算需求少 11-16 倍)、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。
Oct, 2023
本篇论文提出一种基于对比学习方法的文本到图像合成框架,旨在提升合成图像的质量和语义一致性,通过对 pretraining 和 GAN training 阶段进行改进,该方法在两个流行数据集上的实验结果表明,相对于 AttnGAN 和 DM-GAN,能够显著提高合成图像的质量。
Jul, 2021
本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法,通过检索和优化过程综合生成伪文本特征,可以灵活应用于各种情境和模型,并在实验中表现出显著的效果,GAN 模型在完全监督的情况下得到了 6.78 的 FID,是 GAN 最新的 SoTA 结果。
Oct, 2022
提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索 - 过滤模块,使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架在一系列零样本图像字幕设置中取得了最先进的性能。
Mar, 2024