- 基于扩散的具有风格建模的表达性文本转语音系统对时间变异性进行研究
基于参考语音的语音合成已经被广泛研究来合成自然语音,但在获取良好的表达风格和提高模型泛化能力方面存在限制。本研究提出了基于扩散的表达性语音合成 (DEX-TTS)—— 一种用于参考语音合成的声学模型,具有增强的风格表达能力。DEX-TTS - 高质量语音合成的超轻量级神经差分 DSP 语音编解码器
提出了一种超轻量级的差分 DSP (DDSP) vocoder,该 vocoder 使用了一个经过联合优化的声学模型和 DSP vocoder,学习过程中不需要提取声道的光谱特征,实现了与神经 vocoder 相当的音频质量,同时作为一个 - 基于神经变换器的巴西葡萄牙语语音声学模型
通过 Transformer 神经网络构建了一个训练于大量巴西葡萄牙语言音资料上的声学模型,使用预训练技术细调该模型并在呼吸不足检测、性别识别和年龄组分类三个任务中表现出显著提升,尤其在呼吸不足检测方面取得了迄今为止最好的结果,显示出这种声 - Mason-Alberta 语音划分器:基于深度神经网络和插值的强制对齐系统
在本研究中,我们描述了一种新的基于神经网络的强制韵律对齐系统,Mason-Alberta 声学分割器(MAPS),它作为测试平台用于改进强制韵律对齐系统的两种潜在方法:将强制对齐器中的声学模型视为标记任务而非分类任务,以及使用一种插值技术让 - 提格里尼语的大词汇量自由言语识别
提出并描述了设计和开发自动识别非特定说话人的提格利尼亚语口语识别系统的研究尝试,使用卡内基梅隆大学自动语音识别开发工具(Sphinx)开发了语音识别系统的声学模型,而使用 SRIM 工具开发了语言模型。
- 通过基于流的语音转换进行跨语言知识蒸馏,用于稳健的多语言文本到语音转换
该研究提出了一个跨语言语音合成框架,包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等 - VoiceFlow:具有修正流匹配的高效文本到语音
VoiceFlow 是一种声学模型,利用修正流匹配算法实现高质量综合音频的有限采样步骤,比扩散对应模型具有更好的合成质量。
- Blizzard 2023 挑战中的 FruitShell 法语综合系统
该研究论文介绍了一个面向 Blizzard Challenge 2023 的法语文本转语音合成系统,通过数据筛选、数据增强和声学模型等方法,实现高质量的语音合成。
- 具有语言信息的强调表达 TTS 技术
提出了一种基于 EE-TTS 的强调语音合成模型,该模型利用多层语言信息进行韵律信息的预测,并同时进行语音合成和语言信息输出,并经过实验证明其优于基线模型,并且在不同数据集上也具有较强的泛化能力。
- 改进和分析用于 ASR 的神经说话人嵌入
本文研究了将神经说话者嵌入用于一个 ASR 系统,并通过基于 Conformer 的混合 HMM ASR 系统,在使用加权简单加法(Weighted-Simple-Add)集成方法时,展示了改进的嵌入提取流程,通过比较和分析不同的说话者嵌入 - 使用解耦表示构建说话人匿名系统是否足够?
本研究通过使用向量量化技术,加强从声学模型中提取特征时的内容和说话人信息的分离,从而改进说话人匿名化技术,并在 VoicePrivacy 2022 工具包上验证了该方法的有效性。
- WavFT: 利用标记和未标记数据微调声学模型
本文介绍了一种使用无标签数据的有监督语音模型微调方法,达到了分类和上下文特征学习相结合的效果,并使用对比损失来学习音频表示,进而在古吉拉特语和孟加拉语上分别减少了 11.2% 和 9.19% 的错误率。
- 德国口述历史访谈的人类和自动语音识别表现
本文研究了自动语音识别技术在口述历史领域上的表现差距,分析并比较了三种人类转录文本和机器转录文本的表现,通过实验的方式,优化了声学模型,在清晰和嘈杂的口述历史采访中,错误率分别为 15.6% 和 23.9%。
- ACL梵语自动语音识别:新的语音语料库和建模见解
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影 - AAAIDiffSinger:一种浅层扩散机制的歌声合成方法
本文提出了一种基于扩散概率模型的声学模型 DiffSinger,具有较好的稳定性和生成能力,较传统算法在歌唱合成上表现更好。
- Transformer 在行动:Transformer 基于的大规模语音识别应用中的声学模型比较研究
本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异,介绍了 Emformer 在中等延迟任务和低延迟任务上与 - HiFiSinger: 面向高保真神经歌声合成
本研究提出了一种名为 HiFiSinger 的 SVS 系统,通过采用 FastSpeech 基于百度的语音模型和 Parallel WaveGAN 模型,使用小波变换处理声波时频信息,采用多级对抗训练,在高采样率情况下合成高保真度的歌唱声 - 无监督跨域歌声转换
本文提出了一种无需手动监督的端对端 wav 到 wav 生成模型,用于实现任意身份的歌声转换,该模型利用音响模型和提取的旋律特征来驱动基于波形的生成器,经实验证明,在音频质量方面表现显著优于基线方法。
- 大规模多语言自动语音识别:50 种语言,1 个模型,10 亿参数
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的 ASR 模型可以提高识别性能,特别 - wav2vec: 语音识别的无监督预训练
本研究通过对原始音频进行特征学习,探索无监督的语音识别预训练方法,在大量无标注音频数据上进行训练,结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中,仅使用少量已识别数据,我们的方法成功将 WER 从传统的 log-mel