使用 LSTM 进行说话者分离
本文提出了一种全监督的说话人分离方法,称为无限交错状态循环神经网络(UIS-RNN),通过 RNN 建模不同说话人,运用了 ddCRP 解决未知说话人数量问题,并实现在线分离。在 NIST SRE 2000 CALLHOME 上,其检测率为 7.6%,优于现有最先进的基于谱聚类的分离方法。
Oct, 2018
本文提出了两种新的非线性映射方法,使用 DNN 模型将从短语音中提取的 i-vector 映射到相应的长语音 i-vector,实现了从短语音中还原丢失信息和减少 i-vector 的方差,可在说话人识别中实现 28.43%的最大相对改进。
Oct, 2018
本研究通过将发言者信息嵌入到端到端系统中,提高了发言者辨识能力,并保持了处理语音重叠的优势,通过多种方法将这些嵌入与声学特征相结合。同时,对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估,结果表明相对于基准端到端模型,发现有了显著的降低对话错误率,相对提高了 10.78%。
Jul, 2024
本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务,实验结果表明,使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中,能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。
Oct, 2022
本文综述了演讲者分离技术的历史发展,并重点介绍了基于深度学习的新进展,以及演讲者分离系统与语音识别应用之间的相互作用。我们认为,这是一篇有价值的综述工作,为进一步提高演讲者分离效率提供了有力的支持。
Jan, 2021
本文研究了将神经说话者嵌入用于一个 ASR 系统,并通过基于 Conformer 的混合 HMM ASR 系统,在使用加权简单加法(Weighted-Simple-Add)集成方法时,展示了改进的嵌入提取流程,通过比较和分析不同的说话者嵌入来获得声学模型的改进,最终将最佳的 Conformer-based 混合 ASR 系统与说话者嵌入结合起来,获得了 9.0%的 WER 并在 Hub5'00 和 Hub5'01 上进行训练。
Jan, 2023
本研究通过使用预先训练的深度学习模型提取的语音嵌入,探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统,本研究在多个传统分类器上获得了 12.08%、28.71%、37.9%的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。
Jun, 2023
Deep Speaker 是一种神经说话人嵌入系统,可以将话语映射到一个超球上,在此球上,通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征,然后通过平均池化生成话语级别的说话人嵌入,并使用基于余弦相似度的三元组损失进行训练。实验表明,Deep Speaker 优于基于 DNN 的 i 矢量基线,在三个不同数据集上表现出色,还表明适应普通话训练的模型可以提高对英语说话人的识别精度。
May, 2017
本文提出了一种新颖的多模态长短时记忆结构 (MLSTM),它可以无缝整合来自视频序列的视觉和听觉信息,建模人脸和声音之间的时间依赖关系,从而提高语音识别的鲁棒性和识别精度。
Feb, 2016