评估和减少合成语音与真实语音分布之间的距离

Nov, 2022

评估和减少合成语音与真实语音分布之间的距离

Evaluating and reducing the distance between synthetic and real speech distributions

Christoph Minixhofer, Ondřej Klejch, Peter Bell

TL;DR本研究对现代的语音合成系统中真实和合成人类语音之间的分布距离进行了研究，并通过提供话语级别信息来减少该距离，并通过评估合成数据的合适度确定改进。

Abstract

While modern text-to-speech (TTS) systems can produce speech rated highly in terms of subjective evaluation, the distance between real and synthetic speech distributions remains understudied, where we use the term \textit{distribution} to mean the sample space of all possible real spee

text-to-speech acoustic environment speaker characteristics prosody wasserstein distances

发现论文，激发创造

一种用于并行语音合成的谱能距离

提出了一种基于能量距离的新学习方法，可以训练高度并行的语音模型，并达到隐式生成模型的最新成果，与 GAN-TTS 模型相结合可以提高人类评估者判断的平均意见分数。

Aug, 2020

为增强 ASR 训练而选择文本转语音数据

本文提出了一种方法，通过训练神经网络来选择合适的合成语音样本，使其作为自动语音识别模型的辅助训练数据，这在训练中包括有实际的标注数据和合成的数据。在实验中，我们发现将与真实语音具有较大差异性的合成样本（由于词汇差异等原因）纳入到训练中对于提高语音识别性能至关重要，同时，我们的方法可以显著减小文本 — 语音转换（TTS）数据的大小。

May, 2023

利用语义距离度量评估用户对语音识别系统质量的感知

本研究提出使用使用预训练语言模型提取参考和假设的语义向量之间的距离来衡量 ASR 输出假设的语义正确性，实验结果表明，SemDist 比 WER 更能与用户感知相一致，并且比 WER 更能与下游的自然语言理解任务相一致。

Oct, 2021

用合成语音训练识别器评估语音合成

论文提出了一种基于训练合成语音自动识别模型并评估其在真实语音上表现的评估技术，该指标与意见分数自然性和可懂性均呈现出强相关性。

Oct, 2023

关于合成训练数据中音素持续时间变异性对自动语音识别的相关性

通过生成的合成数据以及时长建模来改进低资源环境或领域不匹配任务中的自动语音识别系统，并使用半监督方法在改进中合成数据的语音识别系统中取得了改进。

Oct, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

语义距离的分布度量：一份调查报告

本文研究了语义距离的分布式度量方法，比较了这种方法和基于 WordNet 的方法的优缺点，并讨论了混合方法的最新工作。

Mar, 2012

基于生成式基础模型的合成音频能辅助音频识别和语音建模吗？

最近基础模型的进展使得能够生成与音乐、事件和人类活动相关的高保真声音的音频生成模型成为可能。尽管现代音频生成模型取得了成功，但传统的音频生成质量评估方法主要依赖于类似 Frechet Audio Distance 的距离度量。相比之下，本文旨在通过检验将其作为训练数据使用的效果来评估音频生成的质量，在这方面我们进行了一系列的研究。具体地，我们进行了使用合成音频进行音频识别的实验，同时探索了合成音频在语音相关建模中作为数据增强资源的潜力。全面的实验结果显示了使用合成音频进行音频识别和语音相关建模的潜力。我们的代码可在此 https URL 中获得。

Jun, 2024