为语音合成编码特定讲话者的潜在语音特征

Nov, 2023

为语音合成编码特定讲话者的潜在语音特征

Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis

Jungil Kong, Junmo Lee, Jeongmin Kim, Beomjeong Kim, Jihoon Park...

TL;DR提出了一种用于建模众多发言人的新方法，并通过对特征进行离散化和将其与语音合成模型相结合来表示目标发言人的语音特征。该方法在主观相似性评估中获得了较高的相似度平均意见分数（SMOS），甚至对于未见过的发言人，其性能优于最佳多发言人模型的已见发言人，而且也显著优于零样本方法。此外，该方法在生成新的虚拟发言人方面表现出色，并且通过编码潜在特征能够完全重构原始发言人的语音，说明该方法可以作为在各种任务中对发言人特征进行编码和重构的通用方法。

Abstract

In this work, we propose a novel method for modeling numerous speakers, which enables expressing the overall characteristics of speakers in detail like a trained multi-speaker model without additional training on the target speaker's dataset. Although various works with similar purpose

modeling numerous speakers feature learning speech synthesis model similarity mean opinion score artificial speakers

发现论文，激发创造

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Nov, 2022

VoxGenesis：无监督发现语音合成的潜在说话人流形

提出了一种无监督的语音合成框架 VoxGenesis，通过探索潜在空间，发现与特定说话者特征相关的可解释方向，实现对声音的编辑，并生成更具多样性和真实性的说话者。

Mar, 2024

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

使用自监督语音表示模型进行零样本文本转语音合成

本研究提出了一种零样本文本转语音模型，使用自监督学习获取的语音表示模型进行条件控制，并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。

Apr, 2023

通过自监督表示增强基于 LLM 的语音生成系统的稳定性

在这项研究中，我们介绍了一种新的自监督语音转换（VC）架构，它可以用来学习将瞬时特征，如内容，与静态特征（如说话者 ID 或录音条件）分开进行编码，从而创建说话者解耦的表示。结果表明，训练过以说话者解耦的自监督表示的 Large Language Models（LLMs）相比于最先进的关联表示提高了 4.7 个百分点的说话者相似度，并降低了 5.4 个百分点的词错误率（WER）。此外，它们在自然性方面比 LibriTTS 测试集中的人类录音表现更好。最后，我们表明使用明确的参考嵌入对可读性（稳定性）产生负面影响，与仅使用文本来推断风格的模型相比，WER 增加了 14 个百分点。

Feb, 2024

使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测

该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响，发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。

Nov, 2022

通过学习离散音素级韵律表示实现可控语音合成

本文介绍一种使用直观的离散标签实现音素级 F0 和时长控制的新方法，其使用无监督的韵律聚类过程将音素级 F0 和时长特征离散化为韵律标签的输入序列，该模型不需要参考语音就能合成语音，并具有高质量的语音输出和有效的韵律控制能力。

Nov, 2022

口语语言识别的生成语言表示

探索利用 Whisper 模型的解码器网络通过其生成机制提取语言特征来提高 LID 任务中的分类准确性。通过基于语言嵌入方法和直接优化 LID 输出的两种策略，在 MLS、VoxLingua107 和 CommonVoice 等大规模多语言数据集上进行实验以验证我们的方法的有效性。实验结果表明该方法在 LID 任务的领域内和领域外数据集上均具有良好效果。

Dec, 2023

低延迟语音匿名化端到端流模型

提出了一种流式模型来实现低延迟的说话人匿名化，通过使用轻量级内容编码器、预训练的说话人编码器和变化编码器，将语音信息解耦为语音内容、说话人身份和音调能量信息，并通过解码器重新合成语音信号，该模型实现了 230ms 的延迟，并在自然性、可理解性和隐私保护方面保持了最先进的性能。

Jun, 2024