CLIP4IDC 提出一种自适应训练流程来解决传统方法中存在的预训练数据集领域差异和图片变化编码不充分等问题,以解决图像差异描述任务,实验结果表明其有效性。
Jun, 2022
本文提出一种基于对比学习的图像字幕生成方法,即在参考模型的基础上,通过两个约束条件,鼓励生成独特的字幕,从而提高字幕的质量和独特性。我们在两个挑战性数据集上测试了该方法,并证明它是通用的并可用于不同结构的模型。
Oct, 2017
本文介绍了一种 Learning-to-Compare 模型,该模型能够理解两个图像之间的语义结构并学习描述每个图像,从而有效地进行图像比较和生成描述。使用该模型可以在 Birds-to-Words 数据集上实现比基准模型更好的性能,且同时在自动评估和人类评估中表现良好。
Feb, 2021
本篇论文提出一种基于对比学习方法的文本到图像合成框架,旨在提升合成图像的质量和语义一致性,通过对 pretraining 和 GAN training 阶段进行改进,该方法在两个流行数据集上的实验结果表明,相对于 AttnGAN 和 DM-GAN,能够显著提高合成图像的质量。
Jul, 2021
本文通过仔细匹配训练数据、计算和模型容量,公平地比较了对比预训练和图像字幕等两种预训练策略,并发现仅采用图像字幕训练也很有效,既可以产生与对比预训练编码器竞争的视觉编码器,也可以在视觉和语言任务上超越它们。
Jun, 2023
本文介绍了一项任务,即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集,并提出了一种模型,该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐,以捕捉视觉显著性并实现语言和视觉的对准。
Aug, 2018
该研究提出一种基于跨模态相似性的难度度量方法,用于图像字幕生成模型的训练,并在 COCO 和 Flickr30k 数据集上验证了其有效性,证明其在难样本和未见数据上表现出较高的泛化能力。
Dec, 2022
自动描述两个图像集之间的差异,并通过对候选描述进行重新排序来区分两个集合,从而揭示数据集和模型中的潜在差异
Dec, 2023
本文提出了一种无监督、基于对比学习的图像翻译方法,其主要思想是学习一个判别器,将不同的图像风格区分开来,并使其监督生成器将这些风格在图像之间进行转移。实验结果表明,该方法在视觉质量和翻译准确度方面优于当前领先的无监督基线模型。
May, 2021
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023