TorchAudio：音频和语音处理的构建块

Oct, 2021

TorchAudio：音频和语音处理的构建块

TorchAudio: Building Blocks for Audio and Speech Processing

Yao-Yuan Yang, Moto Hira, Zhaoheng Ni, Anjali Chourdia, Artyom Astafurov...

TL;DR介绍了 TorchAudio 0.10 版本，提供了音频和语音处理领域的机器学习应用程序的构建块，可以在 Python Package Index 中轻松安装并提供了生产就绪的 GPU 兼容的代码，其各种操作和模型实现与其他公开实现类似。

Abstract

This document describes version 0.10 of torchaudio: building blocks for machine learning applications in the audio and →

torchaudio machine learning audio processing speech processing building blocks

发现论文，激发创造

pyannote.audio: 说话人分离的神经构建模块

该论文介绍了 pyannote.audio，他是一个基于 Python 的开源工具包，使用了 PyTorch 机器学习框架，提供端到端可训练的神经网络组件，用于实现说话人分离。其中包括预训练模型，涵盖了广泛的领域，如语音活动检测、说话者更改检测、重叠语音检测和说话者嵌入等，并在大多数领域中达到了最先进的性能。

Nov, 2019

PyTorch-Kaldi 语音识别工具箱

这篇论文介绍了如何使用 PyTorch-Kaldi，这是一个利用了 Kaldi 的高效性和 PyTorch 的灵活性的工具包，旨在构建目前最先进的语音识别模型。

Nov, 2018

音频 Transformer 的 Patchout 高效训练

本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。

Oct, 2021

Asteroid: 基于 PyTorch 的音频源分离工具套件，供研究人员使用

Asteroid 是基于 PyTorch 的音频源分离工具包，提供构建神经分离系统所需的全部神经构建块。该工具还提供在常见音频源分离数据集上的 Kaldi 样式的配方，以提高可重复性。通过使用 Asteroid 的配方获得的实验结果，该论文表明实现至少与参考论文中报告的大多数结果相当。

May, 2020

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023

SpeechBrain: 一款通用的语音工具箱

SpeechBrain 是一个开源的语音工具包，具有抽象出多个任务的核心结构，提供训练方案，预训练模型和推理脚本，以及基于 Python 的语音技术教程。

Jun, 2021

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

该论文提出了一个新的语音语料库 LibriTTS，用于文本转语音，并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。

Apr, 2019

SpeechBrain 1.0 与开源的对话人工智能

SpeechBrain 1.0 是一个开放源码的对话 AI 工具包，基于 PyTorch，主要关注于语音处理任务，如语音识别、语音增强、说话人识别、文本到语音等，它提供了预训练模型和完整的代码和算法 “配方” 以促进透明度和可复制性。SpeechBrain 1.0 引入了新技术来支持多样化的学习方式，大型语言模型（LLM）的集成和先进的解码策略，同时提供了新的模型、任务和模态，并包括一个新的基准库，为研究人员提供了一个统一的平台来评估各种任务的模型。

Jun, 2024