通过合成对的方法改善文本式图像描述的跨模态对齐
该论文研究了一个生成文本 - 图像对以提高细粒度图像 - 文本跨模态检索任务训练的开放性研究问题,并提出了一种新的框架用于成对数据增强,以揭示 StyleGAN2 模型的隐藏语义信息。
Jul, 2022
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。
Jan, 2024
TIPCap 是一种基于文本数据的交互提示的图像标题生成方法,通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异,并在生成标题之前引入可选的提示信息,优于其他弱监督或无监督的图像标题生成方法,并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。
Mar, 2024
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分类能力。
Aug, 2023
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022
本篇论文提出了一种新的方法 SoftCLIP,它通过引入软化的目标来实现交叉模态对齐,并利用模内的自相似性指导实现许多对许多的关系,从而解决了高质量图像 - 文本配对数据的获取问题,成果表现良好。
Mar, 2023
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
为了提供更高质量和更可扩展的多模态预训练数据,我们提出了 CapsFusion,一种先进的框架,利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明,CapsFusion 字幕在模型性能(例如,COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8%和 18.3%)、样本效率(比基准计算需求少 11-16 倍)、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。
Oct, 2023
利用预训练模型和未标注视频数据,本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点,并通过传输模式来进一步提升性能。
Jun, 2023
本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法,通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成, 并在汉语图像描述生成任务上展示了其有效性。
Oct, 2020