使用 SincNet 从原始波形中进行说话人识别

Jul, 2018

使用 SincNet 从原始波形中进行说话人识别

Speaker Recognition from Raw Waveform with SincNet

Mirco Ravanelli, Yoshua Bengio

TL;DR本文介绍了一种新的卷积神经网络架构，称为 SincNet，它使用基于参数化的 sinc 函数实现带通滤波器，以从原始的语音样本中学习低级别的语音表征，以更好地捕捉重要的窄带说话人特征，实验表明，该网络架构比标准的 CNN 在原始波形上更快地收敛并且表现更好。

Abstract

deep learning is progressively gaining popularity as a viable alternative to i-vectors for speaker recognition. Promising results have been recently obtained with →

deep learning speaker recognition convolutional neural networks sincnet speech samples

发现论文，激发创造

基于 SincNet 的可解释卷积滤波器

本研究提出了一种新的卷积神经网络模型 ——SincNet，该模型可用于直接处理从原始波形中提取的语音，通过使用参数化 sinc 函数，鼓励第一层学习更有意义的滤波器，学习带通滤波器的低高截止频率可以从数据中直接进行，该模型比标准 CNN 模型具有更快的收敛速度，更好的性能和更好的可解释性，这在说话人识别和语音识别方面得到了很好的实验验证。

Nov, 2018

原始波形的深度卷积神经网络

本文提出了一种利用深度卷积神经网络从原始波形数据中直接学习音频模型的方法，通过批归一化、剩余学习和精心设计的下采样实现高效处理音频波形，并在环境声音识别任务中取得了 15% 的性能提升，达到了使用对数 - 梅尔特征的模型的性能。

Oct, 2016

朝着端到端可解释的卷积神经网络发展音波信号

用卷积神经网络构建高效且可解释的端到端音频深度学习模型，通过在三个标准语音情感识别数据集上的实验验证，我们的框架在效率和可解释性方面表现优越，对抗 Mel 频谱特征有高达 7% 的改进；还揭示了前端层在处理复杂的长波形模式方面的高效性和可解释性，通过 PhysioNet 心音数据库的实例进行了论证，为处理原始波形数据构建了可移植的有效模型解决方案。

May, 2024

使用特征图缩放的改进型 RawNet 实现基于原始波形的语音识别中的文本无关说话人验证

本研究提出了使用各种方法来缩放特征图的机制，包括使用 sigmoid 非线性函数采用缩放向量来乘法和加法缩放特征图，以及使用 SincNet 的 sinc-convolution 层替换第一卷积层，实验结果表明该方法有效，最佳表现的系统较原始 RawNet 减少一半的等误差率，并在 VoxCeleb1-E 和 VoxCeleb-H 协议下实现了优于现有最先进系统的扩展评估结果。

Apr, 2020

RawNet: 使用原始波形的高级端到端深度神经网络进行文本独立说话人验证

本文提出了一种端到端的系统，该系统包含两个深度神经网络，其一个用于提取语音级别的说话者嵌入，另一个用于后端分类，通过具有预训练方案的模型架构调整可以提取说话者嵌入，并使用附加目标函数简化提取过程，此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。

Apr, 2019

使用全卷积网络对原始波形进行映射进行多通道语音增强

本文提出了一种基于 Sinc 和 dilated 卷积层的全卷积网络（称为 SDFCN）及其扩展版本的残差 SDFCN（称为 rSDFCN），用于时间域下的多通道语音增强（multichannel SE）任务，实验结果表明所提出的语音增强系统在双通道内耳麦和分布式麦克风静音任务中具有优异的性能。

Sep, 2019

推动原始波形扬声器识别的极限

本文提出了一种基于原始波形的演讲者识别模型，它结合了机器学习和说话人认证的最新进展，其中包括 Res2Net 骨干模块和多层特征聚合。该模型具有很高的性能表现，可以应用于半监督学习场景中，即在只有少量标记训练数据和大量未标记训练数据的情况下，可用于说话人识别。

Mar, 2022

基于样本级 CNN 结构的原始波形音频分类

本文研究了音频领域中可扩展的分类模型，并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明，这些模型达到了最先进的性能水平，并可视化了滤波器在网络中的变化。

Dec, 2017

基于卷积神经网络的歌声合成

本文提出了一种基于卷积神经网络的歌声合成方法，通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型，生成长时序的声学特征序列以去除参数生成算法，主观听感测试结果表明该方法能够产生自然流畅的歌声。

Apr, 2019

直接从波形中学习多尺度特征

本文详细介绍了一种使用卷积滤波器的方法，可以通过减少步幅增加时间分辨率，通过增加滤波器增加频率分辨率以提高语音识别精度。我们同时在多个尺度上学习，从而发现更高效的表示方法，并且相对于基于光谱图的同样参数网络训练，内部语音测试集上的词语错误率下降了 20.7％。

Mar, 2016