基于图像和文本引导的无需调参图像定制
提出一种基于参考概念的无需微调的方法生成多概念组合的定制图像,仅需每个概念一幅图像作为输入。通过引入多参考自注意力机制和加权蒙版策略,产生与给定概念一致且更好地与输入文本对齐的图像。与其他基于训练的方法相比,在多概念组合和单概念定制方面,方法表现优秀且更简单。
May, 2024
通过建立一个包含编码器网络和新型的采样方法的框架,该文提出了一种用于文本到图像生成的自定义方法,无需使用规范化方法来解决过拟合问题且可以在很短的时间内自定义大规模的文本到图像生成模型。实验证明,该方法优于现有的方法,并保留更多的细节信息。
May, 2023
该研究提出了一种名为 Custom-Edit 的文本导向图像编辑方法,使用少量参考图像进行模型自定义,可以显著提高引用相似性同时保持源相似性,适用于各种数据集。
May, 2023
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
基于用户特定概念和提示创建自定义图像的个性化文本到图像生成技术已崭露头角,但现有方法在个性化方面面临多个挑战。为了解决这些障碍,我们提出了一种创新的方法 - PhotoVerse,在文本和图像领域中融入双分支条件机制,以提供对图像生成过程的有效控制,并引入了面部身份损失作为训练期间增强身份保存的新组件。这一方法消除了测试时间调整的需要,仅依赖于目标身份的单张面部照片,大大减少了与图像生成相关的资源成本。经过单一训练阶段后,我们的方法能够在几秒钟内生成高质量的图像,产生包含各种场景和风格的多样化图像。广泛的评估表明我们的方法具有卓越性能,实现了保存身份和增强可编辑性的双重目标。
Sep, 2023
本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息,以更好地保存文本不相关内容并避免相同映射问题,从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡,并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。
May, 2023
该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力,提出了基于参数高效的微调框架,包括去噪过程和关键性倒转过程。此外,还提出了参考引导生成方法,利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明,通过仅在文本嵌入上进行微调,CLIP-T 得分提高了 3.6 分,DINO 得分提高了 9.6 分,当对所有参数进行微调时,HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分,在 DINO 得分上提高了 1.2 分,达到了新的技术水平。
Nov, 2023
UniTune 是一种简单而新颖的文本驱动图像编辑方法,它使用文本作为直观的艺术指导界面并且无需其他输入。该方法的核心在于观察到,通过选择合适的参数,我们可以在单个图像上对大型文本到图像扩散模型进行微调,从而鼓励模型保持对输入图像的忠实性,同时允许表达性的操作。该文献中,作者使用 Imagen 作为他们的文本到图像模型,并证明了 UniTune 方法的广泛适用性。
Oct, 2022
MagicRemover 是一种基于强大的扩散模型进行文本引导的图像修复的无需调参方法,通过引入注意力引导策略来限制扩散模型的采样过程,实现指定区域的擦除和遮挡内容的恢复,同时提出一种分类器优化算法以在少量采样步骤内提高去噪稳定性,并通过定量评估和用户研究与最先进的方法进行广泛的比较,显示出 MagicRemover 在高质量图像修复上的显著改进。
Oct, 2023