机器语音链一次性说话人适应
该研究开发了一个基于深度学习的闭环语音链模型,并构建了将自动语音识别和文本转语音综合的方法。实验结果表明,该方法显著提高了性能,实现了人类语音知觉和制作行为的集成。
Jul, 2017
本文介绍了 SpeeChain,一种开源的基于 Pytorch 的工具包,用于开发用于大规模使用的机器语音链。该工具包着重于 TTS 到 ASR 链这一核心组件,旨在通过未经口头语言的文本来增强 TTS 数据,从而增强机器语音链。研究者们通过实现易于使用的多 GPU 批级模型推断、多数据加载器批量生成和新颖的数据选择技术来构建大规模 TTS-to-ASR 链的高效流水线。本文首先解释了 TTS-to-ASR 链的总体流程及其各个步骤的困难之处。然后,研究者们对不同类型的未标记数据、数据过滤阈值、批级组成以及真实 - 合成数据比率进行了详细的剖析研究。最后,通过在 LibriSpeech 的 train_clean_460 上进行实验,证明了半监督学习机制下,TTS-to-ASR 极大地提高了 WER。
Jan, 2023
本文提出了一种基于 Transformer 模型的几乎无监督学习方法,结合 TTS 和 ASR 的双重特性,通过少量的配对数据和额外的未配对数据,实现了对语音和文本领域的语言建模,并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现,以及 11.7% 的 ASR 错误率。
May, 2019
本文介绍了如何使用直通估计器全面地训练语音链以实现重建损失,并使用随机采样实现了 ASR 参数的更新并将其性能提高了 11%的相对 CER 降低率。
Oct, 2018
本文提出了一个高质量的语音合成系统 AdaSpeech 4,用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力,并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外,本文基于基向量的分布提出了一种新的监督损失,以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中,AdaSpeech 4 实现了比基线更好的语音质量和相似性,而无需进行任何微调。
Apr, 2022
描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。
Jun, 2018
本文提出了一种新的半监督训练方法,该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失,利用未配对的语音和文本数据,相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。
Apr, 2019
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
本篇研究基于深度学习、语音识别和自回归方式,为完成语音转换任务提出了全卷积的 wav-to-wav 网络,该研究利用说书音频数据训练出能够实现多人声音转换的模型。
Apr, 2019
现有的文本转语音(TTS)研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战,我们提出了一个整合了零样本和少样本演讲者适应策略的框架。
Apr, 2024