- 使用语音合成进行语音识别数据增强的文本生成
本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强,并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中,实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具
- EMNS /Imz/ Corpus: 游戏、电视和图像小说叙事中感情色彩丰富的单一演讲者数据集
本文介绍了情感化叙事语料库 (EMNS) 数据集的构建,该数据集包含高质量的英式英语语音,具有标记的话语,可增强动态和表现性语言的交互式体验。该数据集提供了更高质量和清洁的录音,以帮助更自然和表现性的语音合成技术用于交互式叙事驱动的体验,同 - MParrotTTS: 低资源情境下的多语言多说话人文本转语音合成
我们提出了 MParrotTTS,它是一个统一的多语言、多说话者的文字转语音合成模型,能够生成高质量的语音。使用自我监督语音表示的模块化训练范式,MParrotTTS 能够以最少的监督数据适应新语言,并在训练自我监督骨干的同时,泛化到未见过 - 文本朗读口音自适应的参数高效学习
本文采用参数效率学习(PEL)技术,基于最优传输(OT)理论,引入无监督损失来最大化源域和目标域之间的差异,建立一个资源高效的低资源口音自适应文本到语音(TTS)模型,提高 Mandarin 口音自适应的自然度和性能的实验结果证明了该方法的 - ACL利用数据增强提高低资源语音识别的准确性
研究发现,利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能,为解决数据稀缺问题提供了一种高效解决方案。
- DiffVoice: 基于潜在扩散的文本到语音
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice - NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS - ArmanTTS 波斯语单说话人数据集
本文介绍了单人发音数据集 ArmanTTS,通过对比各种普遍数据集的特征,证明了 ArmanTTS 是教授波斯文本到语音转换模型所必需的标准。我们结合 Tacotron 2 和 HiFi GAN 设计了一个模型,可以接收音素作为输入,输出是 - 音频扩散模型:关于生成 AI 中的文本转语音和语音增强的综述
本文对音频扩散模型进行了调查,针对文本转语音和语音增强这两个活跃任务,它将方法分为三类,即声学模型、波导合成和端到端框架,并通过添加或去除特定信号将各种语音增强任务进行分类,最后进行实验结果比较和讨论。
- 语调转移模型是否能转移语调?
该研究探讨了使用不同于目标语音的发音作为参考语音进行训练对 Text-to-Speech 中的韵律转移的影响。结果表明,这种方法的性能明显低于使用目标语音作为参考的方法。作者假设韵律转移模型并非学习可转让的韵律表示,而是高度依赖于参考说话者 - 利用大型文本语料库进行端到端语音摘要
本文介绍了两种新颖的方法,利用大量外部文本摘要数据为 E2E SSum 训练提供支持,分别是使用 TTS 系统生成合成语音进行训练,以及使用输入音素序列而非合成语音直接训练模型。实验证明,这些方法在 How2 数据集上改进了多个指标,并且是 - 文本转语音的细粒度情感控制:学习排名类内和类间情感强度
本文提出了一种精细可控的情感语音生成模型,考虑到类间和类内距离,能够产生有较大情感区别的自然语音,实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。
- DTW-SiameseNet:一种用于发音错误检测和更正的动态时间扭曲连锁网络
本研究提出了一种针对 TTS 语音合成任务中的发音错误检测和校正的高精度、适用于 PDA 的发音学习框架,同时还提出了一种基于动态时间规整技术和度量学习的发音错误检测模型 DTW-SiameseNet。结果表明,与基于音素和音频的基线相比, - ClArTTS: 一个开放源代码的古典阿拉伯语语音合成语料库
通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS),我们填补了现有资源中阿拉伯语音语料库的空缺,以支持一些现代的端到端阿拉伯语音合成系统。
- AAAI一种基于向量量化的方法用于实际自然语言转音频合成
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标 - 情感和说话者条件下的语速生成
使用 CREMA-D 数据集,利用带情感的 GAN 生成相对于中性语音的音素长度,可以提供给 TTS 系统以生成更具表现力的语言。使用 IMLE 训练的生成模型也能够实现更好的中性语音机器生成,但仍需进一步主观评价的研究。
- UnifySpeech: 零样本文本转语音和语音转换的统一框架
该论文提出了 UnifySpeech 模型,它首次将文字转语音(TTS)和语音转换(VC)结合到一个框架中,通过矢量量化和域限制技术,加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。
- MMMnTTS2: 一个开源的多说话人蒙古语文本到语音合成数据集
本文介绍了一个名为 MnTTS2 的开源多说话者蒙古语文本转语音数据集,旨在为相关研究人员提供帮助。作者使用现代技术构建了这个 30 小时语音数据库,并开发了基于 FastSpeech2 模型的基线系统,实验结果表明该数据集可以用于构建真实 - 评估和减少合成语音与真实语音分布之间的距离
本研究对现代的语音合成系统中真实和合成人类语音之间的分布距离进行了研究,并通过提供话语级别信息来减少该距离,并通过评估合成数据的合适度确定改进。
- IMaSC -- ICFOSS 马拉雅拉姆语音语料库
本论文介绍了 IMaSC,一个包含约 50 个小时录音的马拉雅拉姆文本和语音语料库,演示使用该数据集对每位演讲者训练的 TTS 模型较以前的研究和公开可用模型表现更好,平均意见分数为 4.50。