利用记忆感知的多说话人嵌入和序列到序列结构的神经说话人分离
提出了一种基于说话者敏感的双重记忆网络的神经结构,可以编码不同说话者的话语,从而在多轮对话中使用上下文信息进行输入的自然语言理解,从使用 Microsoft Cortana 的真实用户数据上进行的实验表明,与使用上下文信息的最先进的槽标记模型相比,可以明显提高性能。
Nov, 2017
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。
Oct, 2023
本研究通过将发言者信息嵌入到端到端系统中,提高了发言者辨识能力,并保持了处理语音重叠的优势,通过多种方法将这些嵌入与声学特征相结合。同时,对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估,结果表明相对于基准端到端模型,发现有了显著的降低对话错误率,相对提高了 10.78%。
Jul, 2024
本文提出了一种全监督的说话人分离方法,称为无限交错状态循环神经网络(UIS-RNN),通过 RNN 建模不同说话人,运用了 ddCRP 解决未知说话人数量问题,并实现在线分离。在 NIST SRE 2000 CALLHOME 上,其检测率为 7.6%,优于现有最先进的基于谱聚类的分离方法。
Oct, 2018
本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统,并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节,其中包括 Res2Net 基于说话人嵌入提取器,基于 conformer 的连续语音分离和泄漏过滤,以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率(DER)为 3.71%,在评估集上的 DER 为 6.23%,并在挑战的辨识赛道上排名第一。
Oct, 2020
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多声道混叠语音识别,最终取得了比较好的性能表现。
Feb, 2022
使用轻量级神经网络将两个独立模型的嵌入式映射到共享的说话者嵌入空间,以实现非对称说话者识别系统,并在大规模数据集上训练的模型中,在共享的说话者得分空间中显著优于余弦打分。
Jan, 2024
提出了一种新的双层模型,通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感,其中一个标准 LSTM 处理 MFCC 特征,而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms,最终将输出平均,实现了在情感识别中的 6% 的提高。
Oct, 2019
通过引入 DSNet,一个具有中立校准的解缠结孪生网络,以满足更强大和可解释的语音情感识别模型的需求,并在两个流行的基准数据集上的实验结果证明其优越性。
Dec, 2023