FreeTuner:无需训练的扩散式任意主题和风格
本文介绍了一种创新的基于预训练大型扩散模型的风格转换方法 FreeStyle,无需进一步优化,通过对所需风格的文本描述,实现风格转换,并且实验结果表明了其在不同内容图像和风格文本提示下的高质量综合和保真度。
Jan, 2024
Tuning-free diffusion-based models have achieved promising results in image personalization and customization, but still face challenges in style-consistent image generation. This paper introduces InstantStyle, a framework that addresses these challenges by decoupling style and content, and injecting reference image features into style-specific blocks to achieve superior visual stylization outcomes.
Apr, 2024
提出一种基于参考概念的无需微调的方法生成多概念组合的定制图像,仅需每个概念一幅图像作为输入。通过引入多参考自注意力机制和加权蒙版策略,产生与给定概念一致且更好地与输入文本对齐的图像。与其他基于训练的方法相比,在多概念组合和单概念定制方面,方法表现优秀且更简单。
May, 2024
FastComposer 使用图像编码器提取的主题嵌入来增强扩散模型中的通用文本调节,从而实现了高效的个性化、多主题文本到图像的生成。 FastComposer 通过跨注意力本地化监督和延迟立体雕塑来处理多主题生成中的身份混合问题,并且相对于基于微调的方法获得了数百到数千倍的加速。
May, 2023
通过无需调整的方法,本文提出了一种同时利用文本和图像指导的图像定制方法,允许在几秒钟内精确编辑特定图像区域,通过创新的注意力混合策略,本方法在图像定制中表现优异,是一种高效的解决方案。
Mar, 2024
该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力,提出了基于参数高效的微调框架,包括去噪过程和关键性倒转过程。此外,还提出了参考引导生成方法,利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明,通过仅在文本嵌入上进行微调,CLIP-T 得分提高了 3.6 分,DINO 得分提高了 9.6 分,当对所有参数进行微调时,HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分,在 DINO 得分上提高了 1.2 分,达到了新的技术水平。
Nov, 2023
我们提出了一种主题驱动的生成框架,通过介入生成过程中的推理时间,强化注意力图,实现精确的属性绑定和特征注入,展示了卓越的零次生成能力,尤其在组合生成的挑战性任务中。
May, 2024
基于用户特定概念和提示创建自定义图像的个性化文本到图像生成技术已崭露头角,但现有方法在个性化方面面临多个挑战。为了解决这些障碍,我们提出了一种创新的方法 - PhotoVerse,在文本和图像领域中融入双分支条件机制,以提供对图像生成过程的有效控制,并引入了面部身份损失作为训练期间增强身份保存的新组件。这一方法消除了测试时间调整的需要,仅依赖于目标身份的单张面部照片,大大减少了与图像生成相关的资源成本。经过单一训练阶段后,我们的方法能够在几秒钟内生成高质量的图像,产生包含各种场景和风格的多样化图像。广泛的评估表明我们的方法具有卓越性能,实现了保存身份和增强可编辑性的双重目标。
Sep, 2023
IDAdapter 是一种无需微调的方法,通过在生成过程中结合文本和视觉注入以及面部身份损失,从单个人脸图像中增强个性化图像生成的多样性和身份保留。通过将特定身份的多个参考图像的混合特征融入训练阶段,丰富相关身份的内容细节,指导模型生成具有比以往作品更多样的风格、表情和角度的图像。广泛的评估显示了我们方法的有效性,在生成的图像中实现了多样性和身份保真度。
Mar, 2024
最近在个性化文本到图像(T2I)扩散模型方面的进展表明,使用有限数量的用户提供的示例生成基于个性化视觉概念的图像的能力已被证明。然而,这些模型在维护高视觉保真度方面经常遇到困难,特别是在根据文本输入进行场景操作时。为了解决这个问题,我们引入了 ComFusion,这是一种新颖的方法,利用预训练模型生成几个用户提供的主题图像和预定义文本场景的组合,有效地将视觉主题实例与文本特定场景融合,从而在多样的场景中生成高保真度的实例。ComFusion 整合了一种类别场景先验保留正则化方法,利用预训练模型的组合主题和场景特定知识,增强了生成的保真度。此外,ComFusion 使用粗糙生成的图像,确保它们与实例图像和场景文本有效对齐。因此,ComFusion 在捕捉主题的本质和保持场景保真度之间保持了一个微妙的平衡。对 T2I 个性化中的各种基线进行了广泛评估,证明了 ComFusion 在定性和定量上的优越性。
Feb, 2024