FastLTS: 无自回归端到端无约束唇语到语音合成

MMJul, 2022

FastLTS: 无自回归端到端无约束唇语到语音合成

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis

Yongqi Wang, Zhou Zhao

TL;DR提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS，可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成，比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升，并获得了更好的音频质量。

Abstract

Unconstrained lip-to-speech synthesis aims to generate corresponding speeches from silent videos of talking faces with no restriction on head poses or vocabulary. Current works mainly use sequence-to-sequence models to solve this problem, either in an autoregressive architecture or a f

lip-to-speech synthesis non-autoregressive model transformer-based visual frontend speech quality inference speed

发现论文，激发创造

RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成

RobustL2S 是一种模块化的 Lip-to-Speech 合成框架，通过自监督学习对 Lip 形象进行映射，获得一种解耦的语音内容特征，再利用 vocoder 将语音特征转化为原始的声波信号，实现了在多个数据集上的最佳表现。

Jul, 2023

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

FastSpeech 2: 快速高質量的端到端文本轉語音

提出了 FastSpeech 2，直接使用语音波形从文本中生成语音，并且通过使用更多的变化信息作为条件输入，解决了非自回归文本到语音模型中的一对多映射问题，从而实现更高的语音质量。

Jun, 2020

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

一种非自回归生成框架用于端到端同步任意语音翻译

我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X)，它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明，NAST-S2X 在语音到文本和语音到语音任务中优于现有模型，在不到 3 秒的延迟内实现了高质量的同时口译，并在离线生成中提供了 28 倍的解码加速。

Jun, 2024

非自回归神经文本转语音

本文提出 ParaNet，一种非自回归 seq2seq 模型，用于将文本转换为频谱图，并通过各种平行神经音色器进行了测试，其中包括一种基于 VAE 的方法，用于从头开始训练反自回归流（IAF）平行音色器。

May, 2019

并行 Tacotron：非自回归且可控 TTS

本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron，该模型采用变分自编码器来提高自然性，轻量级卷积来捕获局部上下文，并引入迭代光谱损失以进一步提高自然性，实验结果表明，Parallel Tacotron 与强的自回归基线模型相匹配，并在推理时间上显著提高了效率。

Oct, 2020

并联自回归重评分的非自回归端到端语音翻译

本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros，使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器，并采用两种训练方法来增强 CMLM 解码器。实验表明，在三个基准数据集及六个语言方向上，Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下，将解码速度提高了 3.63 倍。

Sep, 2021

FastLR: 集成 - 发火的非自回归口形识别模型

本文提出了一种快速的非自回归模型的唇语识别方法，包括整合 - 发射模块，连接主义时间分类解码器和噪声并行解码等三种方法，相较于现有模型，速度可以提升至最先进模型的 10.97 倍，准确率上仅有 1.5% 至 5.5% 不同。

Aug, 2020

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023