pyannote.audio: 说话人分离的神经构建模块

Nov, 2019

pyannote.audio: 说话人分离的神经构建模块

pyannote.audio: neural building blocks for speaker diarization

Hervé Bredin, Ruiqing Yin, Juan Manuel Coria, Gregory Gelly, Pavel Korshunov...

TL;DR该论文介绍了 pyannote.audio，他是一个基于 Python 的开源工具包，使用了 PyTorch 机器学习框架，提供端到端可训练的神经网络组件，用于实现说话人分离。其中包括预训练模型，涵盖了广泛的领域，如语音活动检测、说话者更改检测、重叠语音检测和说话者嵌入等，并在大多数领域中达到了最先进的性能。

Abstract

We introduce pyannote.audio, an open-source toolkit written in python for speaker diarization. Based on PyTorch →

pyannote.audio python speaker diarization machine learning neural networks

发现论文，激发创造

TorchAudio：音频和语音处理的构建块

介绍了 TorchAudio 0.10 版本，提供了音频和语音处理领域的机器学习应用程序的构建块，可以在 Python Package Index 中轻松安装并提供了生产就绪的 GPU 兼容的代码，其各种操作和模型实现与其他公开实现类似。

Oct, 2021

说话人分离的综述：深度学习的最新进展

本文综述了演讲者分离技术的历史发展，并重点介绍了基于深度学习的新进展，以及演讲者分离系统与语音识别应用之间的相互作用。我们认为，这是一篇有价值的综述工作，为进一步提高演讲者分离效率提供了有力的支持。

Jan, 2021

PyTorch-Kaldi 语音识别工具箱

这篇论文介绍了如何使用 PyTorch-Kaldi，这是一个利用了 Kaldi 的高效性和 PyTorch 的灵活性的工具包，旨在构建目前最先进的语音识别模型。

Nov, 2018

AnnoTheia：音像语音技术半自动标注工具包

为了推动低资源语言的视听说技术的研究，我们提出了 AnnoTheia，这是一个半自动注释工具包，可以检测场景中人们的说话以及相应的转录。此外，我们还介绍了将一个预训练模型用于西班牙语的活动说话者检测的适应过程，使用了最初并非为此类任务而设计的数据库。AnnoTheia 工具包、教程和预训练模型已经在 GitHub 上提供。

Feb, 2024

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

野外演讲者日志检测

本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中，从而显著减少注释视频所需的时间。通过这种方式，研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。

Jul, 2020

一种用于在线发言人分离的强化学习框架

该研究提出了一种基于强化学习的机器学习框架，用于实时的多扬声器识别和分割，并能应对有限的训练数据和分布环境的挑战。

Feb, 2023

ESPnet: 端到端语音处理工具包

本文介绍了一个名为 ESPnet 的新的开源语音处理平台，主要关注端到端自动语音识别 (ASR)，采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎，同时遵循 Kaldi ASR 工具包的风格来完成数据处理，特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置，解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。

Mar, 2018

无监督说话人分离：对语言，重叠以及参数调整不敏感

本文探讨了一种不依赖于语种特定组件的无监督的演讲者分离技术，该算法具有覆盖感知功能，不需要有关演讲者数量的信息，并在播客数据上表现出了 79％的纯度得分改进（34％的 F - 分数）。

Jul, 2022

LEAN: 轻量高效的音频分类网络

本文提出了一种轻量级的基于设备的深度学习模型 LENA，采用可训练的波形编码器、预训练的 YAMNet 和交叉注意力进行音频分类，结果表明在下游音频分类任务中，LENA 具有竞争性能，且适用于资源受限的设备。在 FSD50K 数据集上，LENA 的 mAP 为 0.445，内存占用仅为 4.5MB，比同一数据集的基准 on-device mAP 提高了 22％。

May, 2023