TorchAudio:音频和语音处理的构建块
该论文介绍了 pyannote.audio,他是一个基于 Python 的开源工具包,使用了 PyTorch 机器学习框架,提供端到端可训练的神经网络组件,用于实现说话人分离。其中包括预训练模型,涵盖了广泛的领域,如语音活动检测、说话者更改检测、重叠语音检测和说话者嵌入等,并在大多数领域中达到了最先进的性能。
Nov, 2019
这篇论文介绍了如何使用 PyTorch-Kaldi,这是一个利用了 Kaldi 的高效性和 PyTorch 的灵活性的工具包,旨在构建目前最先进的语音识别模型。
Nov, 2018
本文提出一种优化和正则化变压器模型的新方法,使其在音频光谱图上实现了新的最优性能,同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。
Oct, 2021
Asteroid 是基于 PyTorch 的音频源分离工具包,提供构建神经分离系统所需的全部神经构建块。该工具还提供在常见音频源分离数据集上的 Kaldi 样式的配方,以提高可重复性。通过使用 Asteroid 的配方获得的实验结果,该论文表明实现至少与参考论文中报告的大多数结果相当。
May, 2020
本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器,通过使用基于声音压力级的声音混合来进行训练集增强,从而取得了比 AudioLDM 更好的结果,成为了生成文字描述音频的任务中的最佳选择。
Apr, 2023
本文介绍了一种基于潜在空间的 Text-to-audio(TTA)系统 AudioLDM,它使用对比语音 - 语言预训练(CLAP)潜在信息学习连续音频表示,并以文本嵌入作为采样条件,从而在生成质量和计算效率方面具有优势,实测效果接近官方记录,并可以进行零 - shot 文本引导音频操作,如风格转移。
Jan, 2023
SpeechBrain 是一个开源的语音工具包,具有抽象出多个任务的核心结构,提供训练方案,预训练模型和推理脚本,以及基于 Python 的语音技术教程。
Jun, 2021
利用大规模扩散模型做无领域特定建模的语音合成,通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题,在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练,实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程,而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。
Jun, 2024
该论文提出了一个新的语音语料库 LibriTTS,用于文本转语音,并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。
Apr, 2019
SpeechBrain 1.0 是一个开放源码的对话 AI 工具包,基于 PyTorch,主要关注于语音处理任务,如语音识别、语音增强、说话人识别、文本到语音等,它提供了预训练模型和完整的代码和算法 “配方” 以促进透明度和可复制性。SpeechBrain 1.0 引入了新技术来支持多样化的学习方式,大型语言模型(LLM)的集成和先进的解码策略,同时提供了新的模型、任务和模态,并包括一个新的基准库,为研究人员提供了一个统一的平台来评估各种任务的模型。
Jun, 2024