- AAAIStyleSinger: 跨领域歌声合成的风格转换
StyleSinger 是首个用于零样本风格转移的领域外参考唱声样本的歌声合成模型,通过采用剩余风格适应器和不确定性建模层标准化的关键方法,它在音频质量和与参考唱声样本的相似性方面优于基线模型。
- CPST:多模态叙述的保持理解风格转换
我们研究了多模态视觉叙事中风格转移的挑战,介绍了保留理解的风格转移(CPST)概念,并提出了一套利用视觉、文本和布局参数的分离风格转移模块的算法用于检测视觉故事的连贯性以及风格与叙事语义之间的关联。
- 扩散鸡尾酒:扩散模型的融合生成
通过使用不同的扩增模型,本论文提出了一种名为 Diffusion Cocktail (Ditail) 的训练 - free 方法,可以准确地在两个扩增模型之间传递内容信息,实现多样化的图像生成和风格转移。
- 样式注入在扩散中:适应大规模扩散模型进行风格转换的无训练方法
基于预训练大规模扩散模型的一种新的艺术风格转换方法,通过操作自注意力层的特征作为交叉注意力机制的方式,实现样式的传递和内容的保留,并解决原始内容的破坏和样式颜色不协调的问题,证明在传统和基于扩散的风格转换基准测试中超越了现有方法。
- 使用稳定扩散进行卡尔文与霍布斯连环漫画的风格转换
本研究提出了一种基于扩散微调的方法,在包含卡尔文和霍布斯漫画的数据集上进行样式转换,通过使用低秩调整(LoRA)训练稳定扩散版本 1.5 来加速微调过程,扩散本身由变分自动编码器(VAE)来处理,实验结果表明在相对较少的训练时间和优质输入数 - 走向 4D 人类视频风格化
本文提出了一种 4D(3D 和时间)人体视频风格化的方法,该方法在同一个框架内解决了风格转移、新视角合成和人体动画的问题。通过利用神经辐射场(NeRFs)来表示视频,我们可以在渲染特征空间中进行风格化处理,从而实现对于新视角和新姿势的泛化。 - 超越熵:风格迁移引导的单图像持续测试时自适应
BESTTA 是一个新颖的单图持续测试时间适应方法,通过风格转换引导,能够稳定高效地适应目标环境,仅使用一张图像在语义分割和图像分类任务中表现出色。
- 3D 神经风格化的进展:一份综述
用现代人工智能技术进行数字艺术的新方法是通过神经网络的表现力在图像、视频和 3D 数据中进行样式转换,本文探讨了神经样式化在 3D 数据方面的最新进展,包括场景表示、指导数据、优化策略和输出样式等多个重要设计选择,并通过对 2D 图像神经样 - 基于 NeRF 和网格光栅化的混合解决方案的 3D 面部风格转换
通过使用神经辐射场(NeRF)和网格光栅化的混合框架,我们提出了一种解决 3D 面部风格迁移问题的方法,该方法能够在保持高质量几何重建的同时实现快速渲染,并且具有灵活的风格控制。
- 还原被遮挡的面部特征
我们提出了一种在不重复微调模型的情况下恢复遮挡面部特征的方法,通过使用 CycleGAN 架构,可以消除匹配对的要求,并且我们的重建结果与真实无遮挡记录进行了比较。评估结果表明,我们达到了与无遮挡传感器的视频相似的分数。
- 自适应样式技术提升指纹活体检测的泛化能力
我们介绍了一种高性能的指纹活体特征提取技术,该技术在 LivDet 2023 指纹特征展示挑战中获得第一名。此外,我们还开发了一个实用的指纹识别系统,准确率达到 94.68%,在 LivDet 2023 活体检测行动中获得第二名。通过研究各 - 非刚性文本提示的音频编辑
通过非刚性文本编辑探索音频编辑,我们展示了所提出的编辑流程能够创建与输入音频保持一致的音频编辑结果。我们研究了能够执行加法、风格转移和修复的文本提示,并在定量和定性上展示了这些编辑结果优于最近发布的文本提示音频生成模型 Audio-LDM。 - 抗风格迁移是否等于形状偏好?通过扭曲形状评估形状偏好
通过使用风格转换图像评估模型的形状偏差,我们发现使用风格转换图像训练的网络确实学会忽略风格,但其形状偏差主要来自局部形状。我们提供了一个扭曲形状测试平台(DiST)作为对全局形状敏感性的替代测量。通过 DiST 图像训练,可以在保持模型对标 - 运用时空方法改进动态增强 MRI 的风格转移
在 DCE-MRI 中进行风格转换是一项具有挑战性的任务,由于不同组织和时间中对比度增强的大幅变化。本文提出了一种新方法,该方法结合了自编码器来解开内容和风格,并使用卷积 LSTMs 对时间中的预测潜空间进行建模,并使用自适应卷积来应对对比 - 颜色和纹理双管道轻量级风格转移
提出了一种 CTDP 方法,通过双管道同时输出颜色和纹理转换结果,使用掩码总变异损失抑制伪影和小纹理表示,能够控制强度添加纹理结构到颜色转换结果,实验结果表明 CTDP 生成的颜色和纹理转换结果都达到了最先进水平,而且其模型尺寸较小。
- 一种简易的零样本学习组合:纹理敏感的语义分割 IceHrNet 和高级样式转移学习策略
提出了一种使用风格迁移的零样本语义分割的简易方法。通过将医学成像数据集(血细胞成像)用于训练河冰语义分割模型,建立了固定摄像机的河冰语义分割数据集,并提出了一种高分辨率纹理融合语义分割网络 IceHrNet。该网络采用 HRNet 作为骨干 - 非可微音频效果的样式转移
我们提出了一种深度学习方法用于音频制作风格匹配,可以与大多数常用框架中实现的效果一起使用,只要考虑的参数在连续范围内,能够通过逻辑编码音色信息来进行风格匹配。
- 使用风格迁移生成合成潜在指纹
本研究旨在解决潜在指纹领域中数据稀缺的问题,通过样式迁移和图像混合的方法,合成逼真的潜在指纹,其生成的合成指纹在保留输入接触式指纹的身份信息的同时,具有类似真实潜在指纹的特征,且能够生成多个样本。
- ICCVMOSAIC:使用 CLIP 进行多对象分割和任意风格化
通过基于文本提示的风格转换为图像创造性地进行样式化铺平了一条新的道路,然而当前的先进方法未解决用户对样式化的精细控制以及对区域样式化控制的需求,为此,我们提出了一种新的方法 MOSAIC,可以通过从输入提示中提取的上下文对图像中的不同对象应 - 具有专家反馈的上下文学习用于可解释风格转移
提出通过向 ChatGPT 模型蒸馏来改进形式转换数据集的解释性,进一步使用以上下文学习为基础的 ChatGPT 作为评论者来整合稀缺的专家人工反馈以提炼生成的解释。使用此数据集表明当前分发的模型在形式转换任务上表现不佳,而在我们的高质量数