任何风格的自由发言
本文提出一种新方法,通过自监督学习 (SSL) 模型形成注意机制,从目标话语中提取丰富的风格信息并将其高效地转移到源语音内容,从而在无需文本转录或说话者标签的情况下忠实地再现目标说话者的说话风格。通过将风格信息和源语音内容作为输入,利用扩散式解码器生成转换的语音 mel 频谱图,实验证明本方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性,并且对于长话语的计算复杂度增加的抑制效果较好。
Sep, 2023
提出了一种一次性风格可控的说话人脸生成框架,可以从任意参考说话视频中获得一种说话风格,并将一次性画像驱动为使用参考说话风格和其他音频进行说话。
Jan, 2023
本文提出了一种无监督的变分风格转换模型 (VAST),以唤醒中性逼真头像的表情。该模型包括三个关键组成部分:从给定的视频提示中提取面部风格表示的风格编码器;用于模拟准确的与语音相关的动作的混合面部表情解码器;用于增强风格空间的变分风格增强器,以提高表达性和寓意性。通过面部风格学习的关键设计,我们的模型能够灵活地从任意视频提示中捕捉表达性的面部风格,并以零样本的方式将其转移到个性化的图像渲染器上。实验结果表明,所提出的方法能够产生更生动、更真实、更丰富表达的说话头像。
Aug, 2023
本文提出了一种基于 3D 可变形模型统计参数的语音驱动说话人脸合成方法,通过无监督学习从野外的说话视频中学习特征,可以模仿任意视频中的任意风格,并且可以生成新的样式,实验证明此方法相比基线方法能够更自然、更具表现力地合成说话风格。
Oct, 2021
通过集成情感风格和艺术风格的文本控制和图像控制条件,我们提出了一种创新的声音驱动的说话人生成方法称为 Style2Talker,并使用大规模预训练模型自动对现有音频 - 视觉数据集进行情感文本标注。我们的方法在语音嘴唇同步性、情感风格和艺术风格方面的性能优于现有的最先进方法。
Mar, 2024
通过 VQ-VAE 的自监督式预训练,我们提出了一种自我监督式风格增强方法,用于表达性有声读物语音合成,实验证明我们的方法能够有效地提高有声读物合成中合成语音的自然度和表现力。
Dec, 2023
这篇文章提出了一种称为 Style-A-Video 的零样式迁移视频美化方法,利用生成式预训练转换器和图像潜在扩散模型,改善图像降噪过程的指导条件,从而在艺术表达和结构保护之间建立平衡,并采用采样优化和时间一致性模块,以达到优秀的内容保护和风格性能。
May, 2023
本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然后将其馈入 TTS 网络来引导语音合成中的风格,可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃,采用了多种技术。最后,所提出的模型在风格控制上表现良好,并在风格转移的 ABX 偏好测试中优于全局风格令牌(GST)模型。
Dec, 2018
本文提出了一种基于自然语言描述的表情可控一镜到底对话头生成方法 TalkCLIP。该方法通过引入 CLIP-based 风格编码器,将自然语言描述映射到口型样式表示中进行对齐,并能够生成受文本描述引导的具有生动面部表情的逼真谈话头。
Apr, 2023