任何风格的自由发言

Mar, 2024

Say Anything with Any Style

Shuai Tan, Bin Ji, Yu Ding, Ye Pan

TL;DR生成具有多样化头部动作的风格化说话头部对于实现自然的视频至关重要，本文提出了一种使用学习的风格码本通过生成模型来查询离散风格表示的新颖动态权重方法 Say Anything with Any Style（SAAS），并利用提取的风格和残余架构实现在源风格和任意目标风格之间预测嘴部形状的目的。

Abstract

Generating stylized talking head with diverse head motions is crucial for achieving natural-looking videos but still remains challenging. Previous works either adopt a regressive method to capture the speaking st

stylized talking head head motions generative model style-specific branch lip-synchronization

发现论文，激发创造

样式手册：只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模

本文提出一种新方法，通过自监督学习 (SSL) 模型形成注意机制，从目标话语中提取丰富的风格信息并将其高效地转移到源语音内容，从而在无需文本转录或说话者标签的情况下忠实地再现目标说话者的说话风格。通过将风格信息和源语音内容作为输入，利用扩散式解码器生成转换的语音 mel 频谱图，实验证明本方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性，并且对于长话语的计算复杂度增加的抑制效果较好。

Sep, 2023

StyleTalk：可控话语风格的单镜头说话人生成

提出了一种一次性风格可控的说话人脸生成框架，可以从任意参考说话视频中获得一种说话风格，并将一次性画像驱动为使用参考说话风格和其他音频进行说话。

Jan, 2023

通过零样本表情风格转移使您的语音化形象生动活泼

本文提出了一种无监督的变分风格转换模型 (VAST)，以唤醒中性逼真头像的表情。该模型包括三个关键组成部分：从给定的视频提示中提取面部风格表示的风格编码器；用于模拟准确的与语音相关的动作的混合面部表情解码器；用于增强风格空间的变分风格增强器，以提高表达性和寓意性。通过面部风格学习的关键设计，我们的模型能够灵活地从任意视频提示中捕捉表达性的面部风格，并以零样本的方式将其转移到个性化的图像渲染器上。实验结果表明，所提出的方法能够产生更生动、更真实、更丰富表达的说话头像。

Aug, 2023

为实现逼真的音频驱动的说话人脸合成而模仿任意说话风格

本文提出了一种基于 3D 可变形模型统计参数的语音驱动说话人脸合成方法，通过无监督学习从野外的说话视频中学习特征，可以模仿任意视频中的任意风格，并且可以生成新的样式，实验证明此方法相比基线方法能够更自然、更具表现力地合成说话风格。

Oct, 2021

高分辨率情感和艺术风格的生成对话模型

通过集成情感风格和艺术风格的文本控制和图像控制条件，我们提出了一种创新的声音驱动的说话人生成方法称为 Style2Talker，并使用大规模预训练模型自动对现有音频 - 视觉数据集进行情感文本标注。我们的方法在语音嘴唇同步性、情感风格和艺术风格方面的性能优于现有的最先进方法。

Mar, 2024

StyleSpeech：基于 VQ-VAE 的自监督风格增强与情感化有声书语音合成预训练

通过 VQ-VAE 的自监督式预训练，我们提出了一种自我监督式风格增强方法，用于表达性有声读物语音合成，实验证明我们的方法能够有效地提高有声读物合成中合成语音的自然度和表现力。

Dec, 2023

Style-A-Video：任意文本视频样式转移的敏捷扩散

这篇文章提出了一种称为 Style-A-Video 的零样式迁移视频美化方法，利用生成式预训练转换器和图像潜在扩散模型，改善图像降噪过程的指导条件，从而在艺术表达和结构保护之间建立平衡，并采用采样优化和时间一致性模块，以达到优秀的内容保护和风格性能。

May, 2023

野外任意说话人唇语合成

采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音，比其他基线模型表现更好，能够实现针对特定身份的微调和生成不同语音的语音序列。

Sep, 2022

端到端语音合成中学习风格控制与转移的潜在表示

本文介绍了利用变分自编码器（VAE）来实现语音合成模型的端到端学习，以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性，使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示，然后将其馈入 TTS 网络来引导语音合成中的风格，可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃，采用了多种技术。最后，所提出的模型在风格控制上表现良好，并在风格转移的 ABX 偏好测试中优于全局风格令牌（GST）模型。

Dec, 2018

TalkCLIP: 文本引导的表情语音生成

本文提出了一种基于自然语言描述的表情可控一镜到底对话头生成方法 TalkCLIP。该方法通过引入 CLIP-based 风格编码器，将自然语言描述映射到口型样式表示中进行对齐，并能够生成受文本描述引导的具有生动面部表情的逼真谈话头。

Apr, 2023