无声视频中重建高质量语音

Aug, 2023

Let There Be Sound: Reconstructing High Quality Speech from Silent Videos

Ji-Hoon Kim, Jaehun Kim, Joon Son Chung

TL;DR此研究提出了一种新颖的唇到语音系统，通过多个角度缓解一对多映射问题，包括引入自监督语音表示来消除同音异义词，并使用声学变异信息来建模多样的语音风格。此外，为了更好地解决上述问题，采用了基于流的后端网络来捕捉和优化生成语音的细节。广泛的实验证明，该方法实现了接近真实人类话语的语音生成质量，大幅度优于现有方法在语音自然度和可理解性方面。合成样本可在匿名演示页面 (this https URL) 上获取。

Abstract

The goal of this work is to reconstruct high quality speech from lip motions alone, a task also known as lip-to-speech. A key challenge of lip-to-speech systems is the →

lip-to-speech one-to-many mapping homophenes acoustic variance information flow based post-net

发现论文，激发创造

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

学习个别讲话风格以实现准确的唇读语音合成

本文提出了一种基于说话者唇部运动的语音合成方法，通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计，该模型可以更准确、自然地模拟说话者的语音，其量化、定性评估结果表明，该方法比现有方法的可理解性提高了四倍。

May, 2020

全人工合成实验室中准确的唇语到语音合成

提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法，通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入，并使用视觉流生成与输入视频同步的准确语音，通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性，并在辅助技术中展示了其重要的实际应用。

Mar, 2024

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成

RobustL2S 是一种模块化的 Lip-to-Speech 合成框架，通过自监督学习对 Lip 形象进行映射，获得一种解耦的语音内容特征，再利用 vocoder 将语音特征转化为原始的声波信号，实现了在多个数据集上的最佳表现。

Jul, 2023

Lip2AudSpec: 从静态唇部运动视频重建语音

通过一个由自动编码器和卷积神经网络构成的模型，在无声视频中对语音信号的频谱表示进行重建，获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练，该模型能够提取出不同说话人的个体特征，具有良好的识别准确率。

Oct, 2017

野外任意说话人唇语合成

采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音，比其他基线模型表现更好，能够实现针对特定身份的微调和生成不同语音的语音序列。

Sep, 2022

从无声视频中改善语音重构

本文介绍了一种基于卷积神经网络的端到端模型，可将无声视频帧转化为可听、自然的语音信号，模型在 GRID 和 TCD-TIMIT 数据集上训练，并使用常见的客观指标评估重建语音的质量和可懂度，结果表明，本文提出的模型在预测语音方面比现有模型得分显著提高，同时展示了从无约束字典重构语音的有 promising 结果。

Aug, 2017

使你的演员说话：运动和外貌解耦的通用和高保真度的唇同步

我们提出了一种通过语音生成唇部运动和生成视觉外观来编辑说话视频的方法，通过将唇部运动和视觉外观分离并分别生成，使用语音到运动扩散模型和运动条件下的外观生成模型。通过使用标记点来表示运动并采用基于标记点的身份损失，我们可以保留个人身份信息，并通过使用独立编码器对唇部、非唇部外观和运动进行编码，并通过学习融合模块将它们整合以捕捉运动无关的视觉细节。实验证明，我们的方法在唇部同步和视觉细节保持方面对未知的、甚至是不相关的人具有很好的泛化能力。

Jun, 2024

使用语音单元的可懂嘴唇合成

本文提出了一种新型 Lip-to-Speech 合成（L2S）框架，采用量化的自监督语音表示作为 L2S 模型的另一个预测目标，从而实现了强内容监督的多目标 L2S 模型训练，并介绍了一种多输入声码器用于准确地将合成的梅尔频谱转换为波形，并经过实验证实了该方法在 L2S 领域的有效性。

May, 2023