DreamTuner:主题驱动生成仅需一张图片
提出了一种新的 text-to-image 模型的个性化方法,该方法能够通过少量输入的图像,fine-tune 预训练的 text-to-image 模型,使其能够将唯一标识符绑定到特定主题上,并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。
Aug, 2022
一个名为 VideoDreamer 的框架填补了现有工作在生成单一主题视频上的不足,它通过利用预训练稳定扩散,潜变量运动动力学和时间交叉帧注意力来生成多主题的文本引导视频。该项目还引入了一个用于评估定制多主题文本到视频生成模型的基准测试集 MultiStudioBench。
Nov, 2023
该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力,提出了基于参数高效的微调框架,包括去噪过程和关键性倒转过程。此外,还提出了参考引导生成方法,利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明,通过仅在文本嵌入上进行微调,CLIP-T 得分提高了 3.6 分,DINO 得分提高了 9.6 分,当对所有参数进行微调时,HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分,在 DINO 得分上提高了 1.2 分,达到了新的技术水平。
Nov, 2023
T2I 个性化通过语义匹配替换目标值与参考值,将 T2I 个性化重新构想为语义匹配,避免破坏预训练模型的多样性能力,并引入了一种语义一致的遮罩策略以隔离个性化概念与目标提示之外的无关区域。
Feb, 2024
FastComposer 使用图像编码器提取的主题嵌入来增强扩散模型中的通用文本调节,从而实现了高效的个性化、多主题文本到图像的生成。 FastComposer 通过跨注意力本地化监督和延迟立体雕塑来处理多主题生成中的身份混合问题,并且相对于基于微调的方法获得了数百到数千倍的加速。
May, 2023
DreamArtist 是一种简单有效的方法,采用正负 prompt-tuning 学习策略,在保持生成可控性的同时生成多样化高质量图片,相比现有方法具有更出色的生成表现。
Nov, 2022
我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集,构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架,通过融合文本和图像语义,并结合粗粒度位置和细粒度参考图像控制,以最大化主体的准确性和一般化能力。此外,我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明,我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。
Jul, 2023
本文介绍了一种基于 SuTI 的主体驱动图像生成器,它采用集体学习算法来替代特定主体的在线学习过程,可以快速生成高质量、定制化的主体特有图像。
Apr, 2023
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
该研究针对文本到图像个性化合成过程中的限制性问题,分析了两种主要技术(文本反转和 DreamBooth)的不足之处,并引入了一种名为 AttnDreamBooth 的新方法来解决这些问题,通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时,采用交叉注意力图正则化项来增强对注意力图的学习,相较于基准方法,我们的方法在保护身份信息和文本对齐方面取得了显著改进。
Jun, 2024