基于深度神经网络的短语音验证 i-vector 映射

MMOct, 2018

基于深度神经网络的短语音验证 i-vector 映射

Deep neural network based i-vector mapping for speaker verification using short utterances

Jinxi Guo, Ning Xu, Kailun Qian, Yang Shi, Kaiyuan Xu...

TL;DR本文提出了两种新的非线性映射方法，使用 DNN 模型将从短语音中提取的 i-vector 映射到相应的长语音 i-vector，实现了从短语音中还原丢失信息和减少 i-vector 的方差，可在说话人识别中实现 28.43％的最大相对改进。

Abstract

Text-independent speaker recognition using short utterances is a highly challenging task due to the large variation and content mismatch between short utterances. →

speaker recognition i-vector short utterances dnn autoencoder

发现论文，激发创造

使用 LSTM 进行说话者分离

本文介绍一种基于 d-vectors 的说话者辨识方法，将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合，实现了最新的说话者辨识系统，与传统 i-vector 系统相比，取得了更好的结果。

Oct, 2017

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

VoiceExtender: 用引导扩散模型进行短发声无关语音验证

VoiceExtender 是一种新的架构，利用两个引导扩散模型和 SE 指导，对基于短话语的语音特征进行增强，从而提高讲话者验证性能。实验证明，相对于基准方法，在 0.5、1.0、1.5 和 2.0 秒短话语条件下，我们的方法在等错误率上分别提高了 46.1%、35.7%、10.4% 和 5.7%。

Oct, 2023

完全监督的说话人分离

本文提出了一种全监督的说话人分离方法，称为无限交错状态循环神经网络（UIS-RNN），通过 RNN 建模不同说话人，运用了 ddCRP 解决未知说话人数量问题，并实现在线分离。在 NIST SRE 2000 CALLHOME 上，其检测率为 7.6%，优于现有最先进的基于谱聚类的分离方法。

Oct, 2018

深度说话者特征学习用于文本非依赖型说话者验证

本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

May, 2017

使用说话人表示和自监督上下文嵌入进行口吃检测

本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了 12.08％、28.71％、37.9％的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。

Jun, 2023

RawNet: 使用原始波形的高级端到端深度神经网络进行文本独立说话人验证

本文提出了一种端到端的系统，该系统包含两个深度神经网络，其一个用于提取语音级别的说话者嵌入，另一个用于后端分类，通过具有预训练方案的模型架构调整可以提取说话者嵌入，并使用附加目标函数简化提取过程，此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。

Apr, 2019

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务，实验结果表明，使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中，能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。

Oct, 2022