通过 DINO 语义引导的可变形一次性人脸风格化
通过训练表面变形网络和使用配对样例来翻译目标风格,该方法实现了高度风格化的 3D 人脸模型,可以生成不同拓扑的面部模型,并用于诸如头像生成、几何样式的线性插值以及风格化头像的面部动画等应用。
Mar, 2024
该论文提出了一种基于姿势引导的生成器的一次微调方法,以样式化全身人像,并包括使用新型骨架变形模块对其姿势进行修改,从而能够更好地保留输入图片的 “内容” 和艺术风格的 “形式” 并改善人体图像样式化的效果。
Apr, 2023
本研究提出了新的、广义的标准化模块 ——Dynamic Instance Normalization(DIN),通过组成实例标准化和动态卷积将风格图像编码成可学习的卷积参数,从而实现了灵活且更高效的任意风格转移。实验结果表明,所提出的方法在具有挑战性的风格模式上具有非常鼓舞人心的结果,并且是使用基于 MobileNet 的轻量级架构进行任意风格转移的首次,并且在计算成本方面比现有方法提供了超过 20 倍的降低因素。此外,所提出的 DIN 为最先进的卷积操作提供了灵活的支持,因此触发了新的功能,如非自然图像的均匀笔触位置和自动空间笔触控制。
Nov, 2019
本文提出了一种支持多模式脸部艺术风格化的框架,利用 StyleGAN 的优势,并将其集成到编码器 - 解码器架构中进行高质量的面部生成,输出结果显示该框架在一次和零次风格化任务中均能实现比现有方法更出色的面部风格化性能。
May, 2023
本论文介绍了一种名为 JoJoGAN 的简单程序,使用 GAN 反演过程和 StyleGAN 的样式混合特性,从单个样式示例中生成一个大型成对数据集,然后用于微调一个 StyleGAN,从而实现对图像的样式映射, JoJoGAN 只需要一个参考和最少 30 秒的训练时间,可以成功地使用极端样式参考,并且可以控制所使用的样式方面及其应用的程度,定性和定量评估表明,JoJoGAN 生成的高质量高分辨率图像大大优于当前最先进的技术。
Dec, 2021
提出了一种称为 OSASIS 的新型一次性风格化方法,能够在保持结构的同时对图片进行风格化,通过将语义与图像结构分离,可以控制对给定输入的内容和风格的水平,实验证明 OSASIS 在各种实验设置下表现优于其他风格化方法,特别针对训练中很少出现的输入图片,为通过扩散模型进行风格化提供了有希望的解决方案。
Feb, 2024
我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是,DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外,利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战,利用 DINO 预训练的 Transformer 中新兴的对象性,避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能,特别在复杂的现实世界多对象视频分割任务中表现出色,如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。
Nov, 2023
本文探讨了高质量的可视特征是否足以与现有的最先进的视觉语言模型竞争,并通过将 DINOv2 适应于一次性和少量次数的异常检测来证实这一点,重点放在工业应用上。我们表明这种方法不仅能与现有技术竞争,而且在许多情况下甚至能胜过它们。我们提出的仅视觉方法 AnomalyDINO 基于补丁相似性,能够实现图像级别的异常预测和像素级的异常分割。该方法在方法论上简单且无需训练,因此无需额外的数据进行微调或元学习。尽管简单,但 AnomalyDINO 在一次性和少量次数的异常检测方面取得了最先进的成果(例如,将 MVTec-AD 上的一次性性能从 93.1%的 AUROC 提升至 96.6%)。降低的开销以及出色的少量次数性能使 AnomalyDINO 成为快速部署的有力候选,例如在工业环境中。
May, 2024
本文提出了一种框架,通过迭代优化和样式混合技术,生成与给定 one-shot 示例相同分布的人脸图像,可用于增强下游任务的训练数据,并在检测人脸操作方面表现出较高有效性,与其他少样本领域适应方法相比具有优越性。
Mar, 2020