- StyleMamba:高效的文本驱动图像风格转换的状态空间模型
StyleMamba 是一种有效的图像风格转换框架,通过将文本提示转化为相应的视觉风格来保持原始图像的内容完整性。它通过引入条件状态空间模型来加快处理速度,并且通过使用遮罩和二阶方向损失来优化风格化方向,从而大幅减少训练迭代次数和推理时间。 - 多级对齐的领域自适应姿态估计
我们提出了一种多层次域适应方法,利用图像风格转换、对抗训练和自监督学习来同时在图像、特征和姿态水平上进行域间对齐,实现了在姿态估计中的显著改进,超越了现有最先进算法,对人体姿态的改进高达 2.4%,对狗的改进高达 3.1%,对羊的改进高达 - DiffStyler:基于扩散的局部图像风格转移
DiffStyler 是一种新方法,通过利用基于 LoRA 的文本到图像扩散模型来实现高效且精确的任意图像风格转移,该方法结合了跨 LoRA 特征和注意注入的策略,旨在在内容保持和风格整合之间取得更和谐的平衡。
- 快速为 VR 面部动画注册逼真的化身
虚拟现实 (VR) 具有比其他媒体更具身临其境感的社交互动的潜力。关键在于能够在佩戴 VR 头显的同时准确地模拟一个逼真的个人化化身。本研究揭示了头显摄像头镜头与模型相差较大是导致实时模型性能下降的主要原因,并提出了一个系统设计,将问题分解 - 多模态引导的图像风格转移:跨模态生成对抗网络反演
基于文本引导的多模态图像风格迁移方法,使用了 GAN 反演技术生成与指定风格一致的风格表示,实现了在图像风格迁移任务中最先进的性能,并通过全面的定性结果验证了在多模态任务和跨模态风格插值任务中的有效性。
- $Z^*$:基于注意力重排的零样式转移
通过理论分析和实验,本研究展示了扩散模型在零样式转换的有效性和优越性,并引入了交叉注意力重排策略,使样式信息能够直接提取并无缝集成到内容图像中。
- Soulstyler:基于大型语言模型引导图像风格转换的目标对象
通过简单的文本描述,我们提出了 “Soulstyler” 框架,让用户可以引导对特定物体进行图像风格化处理。我们介绍了一个大型语言模型来解析文本,识别风格化的目标和具体风格,并结合基于 CLIP 的语义视觉嵌入编码器,使模型能够理解并匹配文 - 区域控制的风格转换
我们提出了一种图像风格转化的训练方法,通过使用损失函数来约束不同区域的风格强度,并引入了一种特征融合方法,通过线性转换内容特征来保持其语义关系,该方法在大量实验证明了其有效性。
- 肖像风格化:人脸风格化的辅助网络艺术风格转换
本文提出了一种利用辅助预训练人脸识别模型的嵌入特征来促进图像风格转移算法将内容图像中的人脸特征传播到最终风格化结果,以解决现有方法在整个风格化过程中难以保留人脸的个体特征的问题。
- PAI-Diffusion:基于云计算构建和提供一系列开放的中文扩散模型用于文本到图像合成
中文图像生成中的文本到图像合成存在独特的挑战,本文介绍了一个全面框架 PAI-Diffusion,它通过整合通用和领域特定的中文扩散模型解决了现有模型在处理中文时忽略领域上下文和不稳定性的问题,实现了上下文相关图像的生成。
- Sem-CS:面向基于文本的图像风格转换的语义 CLIP 样式器
提出了一种基于全局前景损失和全局背景损失的 Semantic CLIPStyler 框架用于实现语义风格迁移,结果优于基于 CLIPStyler 的框架。
- 使用视觉 Transformer 进行细粒度的图片风格转换
本文提出了一种新颖的 STTR 网络,采用视觉令牌将内容和样式映射到细粒度的特征空间,采用自注意力机制和交叉注意力机制实现微观的样式转换,在人造数据集的评估中取得了较高的效果。
- 生成艺术家:一种语义感知和可控的 CLIP 样式转换器
本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架,其中 Generative Artisan 解决了 CLIPstyler 的失败情况,并在肖像和包含人物的实景中获得了比 CLIPsty - SNeRF:用于 3D 场景的风格化神经隐式表示
本研究提出了一种基于神经辐射场的三维场景风格化方法,采用新的训练方法,交替进行 3D 场景和风格化优化步骤,从而应用更加表现力的图像风格转移方法,生成高质量的具有交叉视角一致性的新视角图片。
- JoJoGAN:单张人脸风格化
本论文介绍了一种名为 JoJoGAN 的简单程序,使用 GAN 反演过程和 StyleGAN 的样式混合特性,从单个样式示例中生成一个大型成对数据集,然后用于微调一个 StyleGAN,从而实现对图像的样式映射, JoJoGAN 只需要一个 - 3D 人体形状风格转移
本文介绍了一种将静态实体角色的形状风格转移到真实动态角色的方法,并通过应用自适应实例归一化和 SPADE 体系结构将图像风格转移技术拓展到三维人体形状领域,利用卷积神经网络同时保留形状结构和传递新主题形状的风格,通过优化和学习方法实现了大约 - ICCV3DStyleNet:以几何和纹理风格变化创建 3D 形状
该研究提出了一种创建三维内容、进行几何和贴图风格变化的方法,借助预先训练的图像样式转换网络和自己的几何样式网络,可实现数据增强与单图像 3D 重构任务。
- CVPRStyTr$^2$: 使用 Transformer 进行图像风格转移
提出了一种基于 transformer 的 StyTr$^2$ 方法,用于实现图像风格转移的长程依赖,介绍了一种适用于该任务的内容感知的位置编码(CAPE),并通过定量实验表明其效果优于现有的基于 CNN 和流计算的方法。
- 深度预置:使用颜色风格转换混合和修饰照片
本文提出了一种名为 Deep Preset 的彩色风格转移方法,通过学习低级别图像颜色变换,设计出了一种通用功能,将内容中的自然颜色的特征概括成重新修饰的参考特征,并将其融合到内容的背景特征中,从而使其风格与参考相似。在 Lightroom - CVPR通过深度特征扰动实现多样化的任意风格转移
本文提出一种基于 deep feature perturbation(DFP)操作的通用图像风格迁移方法,可以在保持风格信息不变的情况下集成到 Whitening and Coloring Transform(WCT)算法中,并能够生成多样