大规模自动有声书制作
本研究旨在探讨在经过语料库特殊增强的情况下,对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况,还研究了在训练时仅提供源语言转录的中间情况。实验结果表明,在这种设置下,可以训练出紧凑高效的端到端语音转换模型。同时,我们提供了语料库,并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。
Feb, 2018
通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式,本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集,以满足对高质量数据的重要需求,从而简化 TTS 模型的数据集创建过程,促进基于语音的技术的发展。
Feb, 2024
对书籍和有声书之间的 93 对数据集进行处理,从叙述性文本中使用语言建模预测出更好刻画人类有声阅读的语调、音量和说话速度的模型,通过与商业 TTS 系统的结果进行对比,发现预测的音调与人类朗读的相关性更高,并且预测的音量属性与人类朗读更为相似。最后,通过人类评估研究量化了人们对于语调增强型有声书朗读的偏好程度。
Oct, 2023
本文介绍数字图书为阅读提供便利,特别是对于对于阅读有困难的人,EPub 3 的辅助功能格式(如 FROG)以及采用人工智能中的 Transfer Learning 技术和 Google BERT 等技术,能够自动划分意义单元,从而降低数字图书的制作成本和提升辅助功能。
Oct, 2019
本文介绍了一个新的多说话人英语数据集 用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本,采样率为 44.1 kHz,每个说话者至少有 17 小时的语音。为了选择高质量的语音样本,我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比(SNR)的音频记录。该数据集已公开发布在此 http 网址。
Apr, 2021
本文提出了一种基于神经网络的语音 - 语音翻译系统,实现了自动配音。实验结果表明自动配音的自然度得到了显著提升,包括多个技术创新点,如神经机器翻译、音频渲染、语音对位、语音合成等。
Jan, 2020
该论文提出了一个新的语音语料库 LibriTTS,用于文本转语音,并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。
Apr, 2019
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
提供了一个适用于有限或无监督语音识别训练的口语英语音频集合,其中包含来自 LibriVox 项目的开源有声读物,已使用语音活动检测进行段分割,并标记有 SNR,说话者 ID 和流派描述,同时提供了基线系统和评估指标,分为三个设置进行评估。
Dec, 2019
通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS),我们填补了现有资源中阿拉伯语音语料库的空缺,以支持一些现代的端到端阿拉伯语音合成系统。
Feb, 2023