文本引导扩散图像风格迁移的零样本对比损失
本文提出了一种基于扩散的非监督图像转换方法,使用分离的风格和内容表征,并使用ViT模型中的中间键提取多头自注意层作为内容保存损失,并匹配文本驱动风格转移的[CLS]分类令牌,同时使用额外的CLIP损失,实验结果表明,该方法在文本引导和图像引导的转换任务中优于现有的基准模型。
Sep, 2022
通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于Imagen,探究其知识方面并与CLIP进行比较,结果显示Imagen与CLIP在零样本图像分类方面表现相当,同时在形状/纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而CLIP则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。
Mar, 2023
本文提出了一种使用非对称梯度指导的扩散抽样反向过程的方法,以解决图像翻译中的风格转换和内容保留的权衡问题,并在文本引导和图像引导下进行了快速稳定的图像操作。
Jun, 2023
零样本反演过程 (ZIP) 是一个框架,将生成的视觉参考和文本引导注入预训练的去噪扩散模型的语义潜空间中,仅使用一个小型神经网络,ZIP在文本提示的直观控制下产生多样的内容和属性,并对真实图像上的域内和域外属性操作展现了显著的鲁棒性。与最先进的方法相比,ZIP在提供逼真的编辑效果的同时,生成了同等质量的图像。
Aug, 2023
通过理论分析和实验,本研究展示了扩散模型在零样式转换的有效性和优越性,并引入了交叉注意力重排策略,使样式信息能够直接提取并无缝集成到内容图像中。
Nov, 2023
基于预训练大规模扩散模型的一种新的艺术风格转换方法,通过操作自注意力层的特征作为交叉注意力机制的方式,实现样式的传递和内容的保留,并解决原始内容的破坏和样式颜色不协调的问题,证明在传统和基于扩散的风格转换基准测试中超越了现有方法。
Dec, 2023
本研究解决了现有图像风格转移方法在保持内容一致性和风格准确性方面的局限。我们提出了FAGStyle,一种零-shot文本引导的扩散图像风格转移方法,通过结合滑动窗口裁剪技术和测地面上的特征增强实现了更好的风格控制和内容保持。实验结果显示,FAGStyle在多样化源内容和风格的应用中表现出优越性,能够有效保留源图像的语义内容。
Aug, 2024
本研究解决了现有图像风格迁移方法在文本引导下难以保持风格一致性和目标图像内容的问题。提出的FAGStyle方法通过滑动窗口裁剪技术和高斯曲面特征增强,实现了信息交互与内容一致性。实验结果表明,FAGStyle在多种源内容和风格下都能优于现有方法,保持源图像的语义内容。
Aug, 2024
本研究解决了传统图像风格转换忽略语义差异的问题,提出了一种基于协调语义的零样本图像变换方案。该方案通过将图像转化为文本描述,并利用生成模型生成风格化图像,最终实现了在不同艺术风格下保持高语义一致性。实验结果表明,该方法在图像生成方面表现出很高的可信性,具有重要的应用潜力。
Oct, 2024
本研究解决了现有风格迁移方法在内容和风格之间平衡不足的问题。我们提出了一种新颖的无训练方法,通过将文本嵌入与空间特征相结合,并分开注入内容和风格,从而改善风格迁移效果。实验表明,该方法在实现平衡和可控的风格迁移结果方面表现出色,并具有扩展到其他任务的潜力。
Oct, 2024