基于深度神经网络的短语音验证 i-vector 映射
本文介绍一种基于 d-vectors 的说话者辨识方法,将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合,实现了最新的说话者辨识系统,与传统 i-vector 系统相比,取得了更好的结果。
Oct, 2017
Deep Speaker 是一种神经说话人嵌入系统,可以将话语映射到一个超球上,在此球上,通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征,然后通过平均池化生成话语级别的说话人嵌入,并使用基于余弦相似度的三元组损失进行训练。实验表明,Deep Speaker 优于基于 DNN 的 i 矢量基线,在三个不同数据集上表现出色,还表明适应普通话训练的模型可以提高对英语说话人的识别精度。
May, 2017
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018
VoiceExtender 是一种新的架构,利用两个引导扩散模型和 SE 指导,对基于短话语的语音特征进行增强,从而提高讲话者验证性能。实验证明,相对于基准方法,在 0.5、1.0、1.5 和 2.0 秒短话语条件下,我们的方法在等错误率上分别提高了 46.1%、35.7%、10.4% 和 5.7%。
Oct, 2023
本文提出了一种全监督的说话人分离方法,称为无限交错状态循环神经网络(UIS-RNN),通过 RNN 建模不同说话人,运用了 ddCRP 解决未知说话人数量问题,并实现在线分离。在 NIST SRE 2000 CALLHOME 上,其检测率为 7.6%,优于现有最先进的基于谱聚类的分离方法。
Oct, 2018
本文研究使用卷积时延深度神经网络结构(CT-DNN)来学习说话人特征,实验结果表明 CT-DNN 可以产生高质量的说话人特征,即使使用单一特征(包括上下文的 0.3 秒),错误拒识率亦可低至 7.68%。
May, 2017
本研究通过使用预先训练的深度学习模型提取的语音嵌入,探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统,本研究在多个传统分类器上获得了 12.08%、28.71%、37.9%的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。
Jun, 2023
本文提出了一种端到端的系统,该系统包含两个深度神经网络,其一个用于提取语音级别的说话者嵌入,另一个用于后端分类,通过具有预训练方案的模型架构调整可以提取说话者嵌入,并使用附加目标函数简化提取过程,此系统在 VoxCeleb1 数据集上实现了同等于具有数据增强的最先进的 x 向量系统的表现。
Apr, 2019
从原始语音中,无监督地提取固定长度的向量表示语音片段的语义信息,通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练,并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。
Nov, 2017
本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务,实验结果表明,使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中,能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。
Oct, 2022