通过生成扩散指导的视角分析多模式目标
通过对比学习,训练多模式生成模型不仅关注多模式信息的共性,还关注相关和非相关的多模式数据之间的区别,使得可以更加有效地利用未标记的、不成对的多模态数据。
Jul, 2020
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
通过定义多种机制以及与机制特定的潜在变量,本文证明了对比学习可以在多模式下阻止识别那些在模态之间共享的潜在因素,从而为多模式表示学习提供了理论基础,并说明了在哪些情况下多模式对比学习在实践中有效。
Mar, 2023
该研究提出一种基于跨模态相似性的难度度量方法,用于图像字幕生成模型的训练,并在 COCO 和 Flickr30k 数据集上验证了其有效性,证明其在难样本和未见数据上表现出较高的泛化能力。
Dec, 2022
本研究提出了一种基于多模态数据增强技术的图像字幕生成方法,旨在解决图像字幕对齐困难的问题。实验证明,本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集,从而提高模型的训练效率和预测准确性。
May, 2023
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
本文提出了 DiffusionSeg 框架,利用预训练和扩散模型实现无监督物体发现,并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题,采用反演技术将图像映射回扩散特征,通过大量实验验证了该方法的优越性。
Mar, 2023
本文介绍了一种自导扩散模型的方法,它可以利用自我监督信号来提供图像生成的指导,而无需大量的图像注释对。通过结合特征提取功能和自注释功能,我们的方法可以为各种图像颗粒度提供指导信号,从整体图像到对象框甚至分割掩模。我们的实验表明,我们的方法在单标签和多标签图像数据集上总是优于无指导的扩散模型,甚至可能超过基于基础真实标签的指导,特别是在不平衡数据上。
Oct, 2022
本篇研究介绍了 self-guidance 这一新方法,通过指导扩散模型的内部表示,提供了对生成图像更强的控制力,可以从这些表示中提取对象的形状、位置和外观等属性,并使用它们来控制生成的采样,这种方法类似于分类器引导,但是不需要额外的模型或训练,作者演示了如何使用这种方法进行复杂的图像操作,如修改对象的位置或大小,合并图像中对象的外观和布局等,并证明了 self-guidance 还可以用于编辑真实图像。
Jun, 2023