样式生成:基于粗略匹配的图像合成
该研究论文介绍了一种名为 Single-StyleForge 的新方法,用于将预训练的文本到图像扩散模型进行个性化训练,从文本提示中生成指定风格的多样化图像。此外,研究还提出了一种名为 Multi-StyleForge 的改进方法,通过学习多个标记来改善风格和文本 - 图像对齐的质量,在六种不同的艺术风格上实验评估表明,在生成的图像质量和感知保真度指标(如 FID、KID 和 CLIP 分数)方面取得了显着的改善。
Apr, 2024
本篇论文提出一种基于对比学习方法的文本到图像合成框架,旨在提升合成图像的质量和语义一致性,通过对 pretraining 和 GAN training 阶段进行改进,该方法在两个流行数据集上的实验结果表明,相对于 AttnGAN 和 DM-GAN,能够显著提高合成图像的质量。
Jul, 2021
通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计,提出了一种新的图像合成技术,用于生成大量标注数据,以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。
Jul, 2018
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
Apr, 2021
该论文研究了一个生成文本 - 图像对以提高细粒度图像 - 文本跨模态检索任务训练的开放性研究问题,并提出了一种新的框架用于成对数据增强,以揭示 StyleGAN2 模型的隐藏语义信息。
Jul, 2022
提出了一个新的任务 —— 风格化数据到文本生成,旨在根据特定的风格为给定的非语言数据生成连贯的文本。为应对逻辑、风格和偏差等三个挑战,我们提出了一个名为 StyleD2T 的新型模型,包括三个组件:逻辑规划增强数据嵌入、基于掩码的风格嵌入和无偏向的风格化文本生成。
May, 2023
研究了一种新的文体控制方法,使用现有的句子作为软模板,包括一种混合注意力 - 复制机制、弱监督学习及新的内容覆盖约束,结果表明该方法在餐馆和体育领域表现更好,在内容保真度和文体控制之间取得了较好的平衡。
Jan, 2019
利用递归神经网络和深度卷积生成对抗网络构建了新的深度架构和 GAN 公式,将字符转换为像素,有效地将文本和图像建模相结合,从而实现了从详细文本描述中生成花和鸟的逼真图像的能力。
May, 2016