全人工合成实验室中准确的唇语到语音合成

Mar, 2024

全人工合成实验室中准确的唇语到语音合成

Towards Accurate Lip-to-Speech Synthesis in-the-Wild

Sindhu Hegde, Rudrabha Mukhopadhyay, C.V. Jawahar, Vinay Namboodiri

TL;DR提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法，通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入，并使用视觉流生成与输入视频同步的准确语音，通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性，并在辅助技术中展示了其重要的实际应用。

Abstract

In this paper, we introduce a novel approach to address the task of synthesizing speech from silent videos of any in-the-wild speaker solely based on lip movements. The traditional approach of directly generating

speech synthesis silent videos lip movements visual text-to-speech assistive technology

发现论文，激发创造

野外任意说话人唇语合成

采用新型的 VAE-GAN 架构生成多说话者在野外拍摄的沉默唇视频中的语音，比其他基线模型表现更好，能够实现针对特定身份的微调和生成不同语音的语音序列。

Sep, 2022

学习个别讲话风格以实现准确的唇读语音合成

本文提出了一种基于说话者唇部运动的语音合成方法，通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计，该模型可以更准确、自然地模拟说话者的语音，其量化、定性评估结果表明，该方法比现有方法的可理解性提高了四倍。

May, 2020

无需实际视觉流的视觉语音增强

本文提出了一个基于说话者的唇部动作的噪音滤波器模型，该模型利用了最新的语音驱动唇部合成技术，能够在缺少视觉流的情况下优化语音质量和可懂性，并通过定量和人工评估证明了其有效性。

Dec, 2020

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

无声视频中重建高质量语音

此研究提出了一种新颖的唇到语音系统，通过多个角度缓解一对多映射问题，包括引入自监督语音表示来消除同音异义词，并使用声学变异信息来建模多样的语音风格。此外，为了更好地解决上述问题，采用了基于流的后端网络来捕捉和优化生成语音的细节。广泛的实验证明，该方法实现了接近真实人类话语的语音生成质量，大幅度优于现有方法在语音自然度和可理解性方面。合成样本可在匿名演示页面 (this https URL) 上获取。

Aug, 2023

基于声码器的无声视频语音合成

本文利用深度学习算法，通过从口型信息中提取语音声学特征进行语音的合成，从而改善无声视频中语音恢复的质量。

Apr, 2020

一种新颖的基于 CNN 和 LSTM 的语音驱动唇形同步模型

使用一维卷积和 LSTM 的深度神经网络模型，结合语音识别模型和速度损失值的方式，实现了音频与动态唇形同步的三维面部建模和动画，其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。

May, 2022

Lip2AudSpec: 从静态唇部运动视频重建语音

通过一个由自动编码器和卷积神经网络构成的模型，在无声视频中对语音信号的频谱表示进行重建，获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练，该模型能够提取出不同说话人的个体特征，具有良好的识别准确率。

Oct, 2017

RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成

RobustL2S 是一种模块化的 Lip-to-Speech 合成框架，通过自监督学习对 Lip 形象进行映射，获得一种解耦的语音内容特征，再利用 vocoder 将语音特征转化为原始的声波信号，实现了在多个数据集上的最佳表现。

Jul, 2023

野外语音到唇形生成只需要一个口型同步专家

研究如何 lip-sync 一个任意身份的说话面部视频以匹配目标语音片段，并使用 Wav2Lip 模型和新的评估基准，成功地在自由视频中实现了较好的 lip-sync 精度。

Aug, 2020