野外任意说话人唇语合成
提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法,通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入,并使用视觉流生成与输入视频同步的准确语音,通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性,并在辅助技术中展示了其重要的实际应用。
Mar, 2024
给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架,该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频,实现了短视频时的准确嘴唇和形象产生,以及视频的视觉质量和语音 - 视觉同步方面的最新性能。
Sep, 2023
本文提出了一种基于说话者唇部运动的语音合成方法,通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计,该模型可以更准确、自然地模拟说话者的语音,其量化、定性评估结果表明,该方法比现有方法的可理解性提高了四倍。
May, 2020
RobustL2S 是一种模块化的 Lip-to-Speech 合成框架,通过自监督学习对 Lip 形象进行映射,获得一种解耦的语音内容特征,再利用 vocoder 将语音特征转化为原始的声波信号,实现了在多个数据集上的最佳表现。
Jul, 2023
本文提出了一种以面部图像控制语音的零样本个性化 Lip2Speech 合成方法,并采用变分自编码器对讲话人身份和语言内容进行解藕,由此实现了对未知说话人的声音特征进行控制。此外,我们还探索了跨模态表示学习以提高面部说话人嵌入(FSE)的语音控制能力。通过大量实验证明了该方法的有效性,其合成话语比其他方法更加自然且与输入视频的个性更匹配。据我们所知,这是第一篇使用面部图像而不是参考音频来控制声音特征的零样本个性化 Lip2Speech 合成方法。
May, 2023
本文介绍了一种新型嘴唇到语音生成对抗网络 - 视觉上下文关注 GAN(VCA-GAN),它可以在语音合成期间同时建模本地和全局唇部动作,并通过同步学习指导生成器根据给定的输入唇部动作合成语音。
Apr, 2022
通过一个由自动编码器和卷积神经网络构成的模型,在无声视频中对语音信号的频谱表示进行重建,获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练,该模型能够提取出不同说话人的个体特征,具有良好的识别准确率。
Oct, 2017
本文提出了一种基于生成式对抗网络(GANs)的、直接从无声视频中合成自然语音的端到端模型,能够根据视频内容生成与其同步的语音,并在 GRID 数据集上进行了性能评估,实现了从视频到裸音频的首次直接映射,并能够识别新演讲者的语音,并在音质和准确性方面对生成的音频进行评价。
Jun, 2019
研究如何 lip-sync 一个任意身份的说话面部视频以匹配目标语音片段,并使用 Wav2Lip 模型和新的评估基准,成功地在自由视频中实现了较好的 lip-sync 精度。
Aug, 2020
本文介绍了 StyleLipSync,这是一个基于风格的个性化唇形同步视频生成模型,可从任意音频生成与身份无关的唇形同步视频。模型通过在预先训练的 StyleGAN 的语义丰富潜空间中利用表达性嘴唇先验来生成具有任意身份的视频。与之前的唇形同步方法相比,我们引入了姿态感知掩蔽,通过逐帧使用 3D 参数网格预测器动态定位掩蔽,以提高过帧自然性。此外,我们还提出了一种少量样本的唇形同步适应方法,引入同步正则器来保持唇形同步的泛化性,同时增强个人特定的视觉信息。广泛的实验证明,我们的模型可以生成准确的唇形同步视频,甚至可以在零样本设置下通过拟合少量秒数的目标视频增强看不见的面部特征。
Apr, 2023