推动原始波形扬声器识别的极限

Mar, 2022

Pushing the limits of raw waveform speaker recognition

Jee-weon Jung, You Jin Kim, Hee-Soo Heo, Bong-Jin Lee, Youngki Kwon...

TL;DR本文提出了一种基于原始波形的演讲者识别模型，它结合了机器学习和说话人认证的最新进展，其中包括 Res2Net 骨干模块和多层特征聚合。该模型具有很高的性能表现，可以应用于半监督学习场景中，即在只有少量标记训练数据和大量未标记训练数据的情况下，可用于说话人识别。

Abstract

In recent years, speaker recognition systems based on raw waveform inputs have received increasing attention. However, the performance of such systems are typically inferior to the state-of-the-art handcrafted fe

speaker recognition raw waveform inputs machine learning res2net self-supervised learning

发现论文，激发创造

RawNet: 使用原始波形的高级端到端深度神经网络进行文本独立说话人验证

本文提出了一种端到端的系统，该系统包含两个深度神经网络，其一个用于提取语音级别的说话者嵌入，另一个用于后端分类，通过具有预训练方案的模型架构调整可以提取说话者嵌入，并使用附加目标函数简化提取过程，此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。

Apr, 2019

MR-RawNet：使用原始波形的多时间分辨率变长语音说话人验证系统

通过使用多分辨率特征提取器和多分辨率注意力块，MR-RawNet 能够从原始波形中提取时间 - 频率表示，增强说话人验证系统对可变持续时间的音频语句的抗干扰能力。实验结果表明，与其他基于原始波形的系统相比，MR-RawNet 在处理可变持续时间的音频语句时表现出更高的性能。

Jun, 2024

通过自监督学习构建一个真实的大脑语音处理模型

本论文针对语音识别的问题，提出自我监督学习可能是解决这一问题的一个更好的选择，核心是自己生成特征，通过自我监督可以获得和人脑工作方式类似的神经网络模型，帮助理解语言习得和人脑在语音处理方面的机理。

Jun, 2022

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

基于原始波形 CLDNN 的端到端欺诈检测

本文介绍了一种基于原始波形的深度模型进行欺骗检测的方法，该模型同时作为特征提取器和分类器，消除了数据的任何预处理和后处理，通过使用卷积长短时神经网络（CLDNN），使得在 BTAS2016 数据集上系统性能从最佳 1.26％半总误差率（HTER）显著提高到现在的 0.82％HTER，并表现出在未知条件下也能很好地进行欺骗检测。

Jul, 2020

使用 SincNet 从原始波形中进行说话人识别

本文介绍了一种新的卷积神经网络架构，称为 SincNet，它使用基于参数化的 sinc 函数实现带通滤波器，以从原始的语音样本中学习低级别的语音表征，以更好地捕捉重要的窄带说话人特征，实验表明，该网络架构比标准的 CNN 在原始波形上更快地收敛并且表现更好。

Jul, 2018

使用特征图缩放的改进型 RawNet 实现基于原始波形的语音识别中的文本无关说话人验证

本研究提出了使用各种方法来缩放特征图的机制，包括使用 sigmoid 非线性函数采用缩放向量来乘法和加法缩放特征图，以及使用 SincNet 的 sinc-convolution 层替换第一卷积层，实验结果表明该方法有效，最佳表现的系统较原始 RawNet 减少一半的等误差率，并在 VoxCeleb1-E 和 VoxCeleb-H 协议下实现了优于现有最先进系统的扩展评估结果。

Apr, 2020

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

探索 wav2vec 2.0 在说话人验证和语言识别上的应用

本文提出了一种基于 self-supervised 的 Wav2vec 2.0 框架，可用于说话人验证和语言识别，通过多任务学习使用一个模型进行统一建模，并在相关数据集上取得了良好的成果。

Dec, 2020