- EMNLP自然语言理解模型对语音识别错误的鲁棒性评估的一种方法
通过使用合成语音进行 NLU 模型评估,本文提出了一种方法来研究语音识别错误对自然语言理解模型性能的影响,并结合细粒度的错误分类技术。结果表明,使用合成语音代替音频记录在很大程度上不改变所提出的技术的结果。
- 基于能量的语音合成模型
这篇论文描述了如何使用基于能量的模型(EBMs)通过噪声对比估计训练,并通过 Langevin Markov Chain Monte-Carlo(MCMC)进行采样,从而扩展了非自回归模型在语音合成中的应用。在 LJSpeech 数据集上的 - 基于原始音标输入和显式韵律建模的文本转语音合成的生成对抗训练
通过生成对抗训练的端到端语音合成系统,我们使用明确的语音、音高和时长建模来训练我们的原始音素到音频转换的 Vocoder,并通过几种预训练模型来实验上下文化和去上下文化的词嵌入,同时介绍一种基于离散风格标记的高度表达的字符声音匹配方法。
- MM一个面向细粒度情感分析的多层次韵律模型
该研究通过从上下文级别的文本中预测适合的韵律特征,提出了一种多尺度文本韵律模型(D-MPM),该模型利用多尺度文本预测这些韵律特征,从而指导语音合成模型合成更具表现力的语音。
- 利用大型语言模型进行零样本 ASR 领域自适应的语料合成
提出了一种新的自适应 ASR 模型到新目标领域的策略,其中使用大型语言模型生成目标领域文本语料库,并使用最先进的可控语音合成模型生成相应的语音,通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果,实验证明该方法在未知目标 - HiFTNet:具备谐波加噪滤波器和逆短时傅里叶变换的高速高质量神经声码器
本文介绍了一种名为 HiFTNet 的扩展模型,通过在时频域中使用基频(F0)的正弦源来快速推理,结合了反短时傅里叶变换(iSTFT)和谐波加噪声源滤波器,实现了高效、高质量的神经音频编码,为实时高质量语音合成应用开辟了新的前景。
- Voxtlm: 统一的解码器模型用于集成语音识别 / 合成和语音 / 文本延续任务
我们提出了一种仅解码的语言模型 VoxtLM,可以执行四个任务:语音识别、语音合成、文本生成和语音延续。与单任务模型相比,VoxtLM 在语音合成方面显示出显著改进,语音可懂度从 28.9 提高到 5.6,客观质量从 2.68 提高到 3. - 跨语句条件化变分自编码器的语音生成
利用神经网络驱动的语音合成系统解决了表达性语音和无缝编辑的问题,通过 Cross-Utterance Conditioned Variational Autoencoder speech synthesis (CUC-VAE S2) 框架提 - Matcha-TTS:具有条件流匹配的快速 TTS 架构
我们介绍了 Matcha-TTS,一种新的编码器 - 解码器架构,用于快速 TTS 声学建模,使用最优传输条件流匹配(OT-CFM)进行训练。这产生了一种基于 ODE 的解码器,能够在比使用分数匹配训练的模型更少的合成步骤中输出高质量音频。 - 面向对话文本到语音合成的半监督预训练用于自发风格建模
我们提出了一种半监督预训练方法,通过考虑文本和语音信息来检测语音中的自发行为标签,并使用语言感知编码器建模对话中每个句子之间的关系。实验结果表明,我们的方法能够实现更好的表达式语音合成性能,具备对自发式语音的自发行为建模以及从文本中预测合理 - 通用可推广的零样本说话者自适应语音合成与解绑表示
解决合成声音的自然性和说话人相似度降低的问题,我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性,并利用变分自动编码器的表示学习能力增强说话人编码器,实验证明我们的模型在未知说话人上有更好 - 为 ASR 数据增强精确合成口吃病患者语音
该研究提出了一种新的口吃性语音合成方法,用于自动语音识别 (ASR) 训练数据的增强,并通过主观评估证明了合成语音与真实口吃性语音在口吃感和相似性方面的相似性,特别是对于严重口吃者。
- iSTFTNet2:基于 1D-2D CNN 的更快速、更轻量化 iSTFT 基础神经声码器
iSTFTNet2 是 iSTFTNet 的改进版本,使用 1D 和 2D CNN 分别模拟时间和谱图结构,提高了模拟高维谱图的能力,并且保持了速度和语音质量。
- EXPRESSO:离散表达性语音重新合成的基准和分析
我们介绍了 Expresso,这是一个高质量的表达性语音数据集,用于无文字语音合成,其中包括使用 26 种自发表达的风格渲染的朗读语音和即兴对话。我们通过一个表达性再合成基准来说明该数据集的挑战和潜力,其中的任务是在保持内容和风格的同时,使 - 多对多口语翻译通过统一语音和文本表征学习与单元翻译
我们提出了一种方法,通过单一模型学习多语言语音和文本的统一表示,特别关注语音合成的目的。我们使用语音单元表示多语言语音音频,这是从自我监督语音模型编码的语音特征的量化表示。因此,我们可以将语音视为伪文本,并构建语音和文本的统一表示。然后,我 - 使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音 - SALTTS:利用自我监督的语音表示改进语音合成
通过结合 Self-Supervised Learning 的表示形式,使用 encoder 层次重建其表示结果并应用于数据增强技术,提高 FastSpeech2 的语音合成质量。
- EmoSpeech:引领 FastSpeech2 朝向情感文本朗读技术的方向
本文探讨了在 FastSpeech2 的基础上如何通过更改结构实现情感语音的合成,并且在自动和人体评估中, 创造了 EmoSpeech 模型,该模型的 MOS 得分和情感识别准确性均超过了现有模型。
- 转化音频驱动的说话脸部合成为文本驱动的
该论文提出了一种将预训练的音频驱动人脸合成模型重新编程以使其能够处理文本输入的方法,其中涵盖了文本到音频嵌入、音频驱动模型、语音合成、说话者特征等关键词。
- 视觉感知的文本转语音
本文提出了一种新的视觉感知文本转语音(VA-TTS)任务,它可以根据面对面交流中听者的语音和面部表情条件语音的生成,实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。