使用语音单元的可懂嘴唇合成

May, 2023

Intelligible Lip-to-Speech Synthesis with Speech Units

Jeongsoo Choi, Minsu Kim, Yong Man Ro

TL;DR本文提出了一种新型 Lip-to-Speech 合成（L2S）框架，采用量化的自监督语音表示作为 L2S 模型的另一个预测目标，从而实现了强内容监督的多目标 L2S 模型训练，并介绍了一种多输入声码器用于准确地将合成的梅尔频谱转换为波形，并经过实验证实了该方法在 L2S 领域的有效性。

Abstract

In this paper, we propose a novel lip-to-speech synthesis (L2S) framework, for synthesizing intelligible speech from a silent lip movement video. Specifically, to complement the insufficient supervisory signal of the previous L2S model, we propose to use quantized →

lip-to-speech synthesis self-supervised speech representations multi-target l2s model vocoder experimental results

发现论文，激发创造

RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成

RobustL2S 是一种模块化的 Lip-to-Speech 合成框架，通过自监督学习对 Lip 形象进行映射，获得一种解耦的语音内容特征，再利用 vocoder 将语音特征转化为原始的声波信号，实现了在多个数据集上的最佳表现。

Jul, 2023

全人工合成实验室中准确的唇语到语音合成

提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法，通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入，并使用视觉流生成与输入视频同步的准确语音，通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性，并在辅助技术中展示了其重要的实际应用。

Mar, 2024

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

可扩展视频语音合成

本文提出了一种可扩展的视频到语音综合框架，利用自我监督学习的方法，通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形，显着优于以往方法，并在 LRS3 数据集上首次展示令人满意的结果。

May, 2022

Lip2AudSpec: 从静态唇部运动视频重建语音

通过一个由自动编码器和卷积神经网络构成的模型，在无声视频中对语音信号的频谱表示进行重建，获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练，该模型能够提取出不同说话人的个体特征，具有良好的识别准确率。

Oct, 2017

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

使用学习的分段单元进行无文本图像合成语音

该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型，该模型不需要自然语言文本作为中间表示或监督来源，而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来，这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验，并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库，证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示，并通过实验证明，这些表示必须满足几个重要的属性，才能作为文本的替代品。

Dec, 2020

学习个别讲话风格以实现准确的唇读语音合成

本文提出了一种基于说话者唇部运动的语音合成方法，通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计，该模型可以更准确、自然地模拟说话者的语音，其量化、定性评估结果表明，该方法比现有方法的可理解性提高了四倍。

May, 2020

无声视频中重建高质量语音

此研究提出了一种新颖的唇到语音系统，通过多个角度缓解一对多映射问题，包括引入自监督语音表示来消除同音异义词，并使用声学变异信息来建模多样的语音风格。此外，为了更好地解决上述问题，采用了基于流的后端网络来捕捉和优化生成语音的细节。广泛的实验证明，该方法实现了接近真实人类话语的语音生成质量，大幅度优于现有方法在语音自然度和可理解性方面。合成样本可在匿名演示页面 (this https URL) 上获取。

Aug, 2023

离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型

通过将预训练的基于文本的大型语言模型（LLM）与语音输入集成，我们提出使用离散语音单元（DSU）代替连续值语音编码器输出，通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能，并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数（MFCC）提取的各种类型的 DSU。我们的发现表明，在口语问答任务的指令调优中，ASR 任务和数据集并不关键。

Jun, 2024