基于语义的生成式文本到图像合成的准确性
本文介绍用于图像字幕生成的数据集 Egoshots,并使用现有的预训练图像字幕和对象识别网络对其进行注释,展示现有作品的局限性;此外,还提出了一种新的图像字幕度量标准 SF,可以在没有注释的情况下评估生成的标题,使其对实际生活中产生的标题非常有用。
Mar, 2020
本文研究了文本到图像合成的最新方法并提出了一个评估框架,针对单个或多个对象的综合进行考虑,并为当前评估流程中的一些问题提出了解决方案。最终提出了一个结合了现有和新的度量标准的评估方法,并展示了使用这些度量标准获得高度一致的排名结果。
Dec, 2021
本文提出了一种将 SoTA 模型生成的不同字幕进行有效融合的新方法,通过使用图像文本度量来排名模型生成的字幕,然后使用大语言模型(LLM)融合前两个字幕,实验结果表明,我们的方法可以增强字幕的质量和吸引力,缩小了自动化系统与人类生成的描述之间的差距,并开辟了为视觉 - 语言和字幕模型生成更适宜的字幕的新可能性。
Jun, 2023
扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型,对于传统机器学习任务产生了一系列创新方法。然而,如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现,自动生成的描述能够改善文本图像对齐,并显著提升模型的交叉注意力图,从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型,并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外,我们的方法适用于跨领域环境;我们使用模型个性化和标题修改来将模型与目标域对齐,并改善了非对齐基准的性能。我们的目标检测模型,在 Pascal VOC 数据集上训练,实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法,在 Cityscapes 数据集上训练,实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。
Sep, 2023
本文提出了一种基于对物体的关注的生成对抗网络,可用于复杂场景的文本到图像合成,该网络生成器长注重于文本描述中最相关的单词和预生成的语义布局,以合成显著物体,同时提出了一种快速区域卷积神经网络(Fast R-CNN)的新技术,以提供丰富的针对对象的区分信号,判断生成的物体与文本描述和预生成布局是否匹配。该提出的 Obj-GAN 在大规模 COCO 基准测试中表现出色,提高了 27%的 Inception 分数并降低了 11%的 FID 分数。通过分析它们的机制和可视化他们的注意层,提供了传统网格注意和新型对象驱动注意之间的全面比较,展示了本模型如何高质量地生成复杂场景的见解。
Feb, 2019
本文提出了一种基于有上下文的 LSTM 描述生成器和协同对抗网络鉴别器的图像描述生成方法,并比较了两种训练方法,结果表明 Self-critical Sequence Training 表现更好;同时,介绍了一种用于衡量生成模型的语义得分,构建了 OOC 数据集来检测生成器的泛化能力与语义相似度。
Apr, 2018
本研究中,我们通过引入场景图表示图像标题,利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型,能高效地编码物体 - 属性和物体 - 物体的语义关系,通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验,证明了相对于计算成本高的交叉注意方法,CORA 在召回得分上具有优势,同时实现了双编码器的快速计算速度。
Jun, 2024
本文提出了一种使用自然语言描述直接合成逼真图像的方法,它有很多有用的应用,例如智能图像操作。我们提出了一种端到端的神经架构,利用对抗学习自动学习隐式损失函数,实现语义分离并生成新图像。通过在 Caltech-200 鸟类数据集和 Oxford-102 花卉数据集上进行实验,我们证明了我们的模型能够合成符合描述要求的逼真图像,同时仍保留原始图像的其他特征。
Jul, 2017
本研究提出了一种新的方法,改进了生成对抗网络(GANs)训练的能力,可以根据文本输入合成多样的图像,这种方法基于条件版本的 GANs,扩展了前人利用判别器中的辅助任务,通过负样本采样来构造积极和消极的训练样例,通过牛津 102 花卉数据集的实验结果表明,生成的图像更具多样性,特别是当负样本逐渐靠近语义空间中的积极样本时。
Dec, 2018
本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar,通过使用在图像中检测到的目标标签作为锚点,显著简化模型中的图像与文本的语义对齐,使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。
Apr, 2020