利用记忆感知的多说话人嵌入和序列到序列结构的神经说话人分离

Sep, 2023

利用记忆感知的多说话人嵌入和序列到序列结构的神经说话人分离

Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture

Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Yanyan Yue...

TL;DR通过使用记忆感知的多说话人嵌入与序列到序列架构（NSD-MS2S），我们提出了一种新颖的神经说话人分离系统，其整合了记忆感知的多说话人嵌入（MA-MSE）和序列到序列架构（Seq2Seq）的优势，从而在效率和性能方面都得到了提高。

Abstract

We propose a novel neural speaker diarization system using memory-aware multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S), which integrates the strengths of →

neural speaker diarization system memory-aware multi-speaker embedding sequence-to-sequence architecture multi-head attention mechanism deep interactive module

发现论文，激发创造

适用于多轮槽位标记的说话人敏感性双存储器网络

提出了一种基于说话者敏感的双重记忆网络的神经结构，可以编码不同说话者的话语，从而在多轮对话中使用上下文信息进行输入的自然语言理解，从使用 Microsoft Cortana 的真实用户数据上进行的实验表明，与使用上下文信息的最先进的槽标记模型相比，可以明显提高性能。

Nov, 2017

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024

完全监督的说话人分离

本文提出了一种全监督的说话人分离方法，称为无限交错状态循环神经网络（UIS-RNN），通过 RNN 建模不同说话人，运用了 ddCRP 解决未知说话人数量问题，并实现在线分离。在 NIST SRE 2000 CALLHOME 上，其检测率为 7.6%，优于现有最先进的基于谱聚类的分离方法。

Oct, 2018

2020 年 VoxCeleb 说话人识别大赛微软说话人分离系统

本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统，并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节，其中包括 Res2Net 基于说话人嵌入提取器，基于 conformer 的连续语音分离和泄漏过滤，以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率（DER）为 3.71％，在评估集上的 DER 为 6.23％，并在挑战的辨识赛道上排名第一。

Oct, 2020

远场语音识别的神经盲分离和发言者划分

本文提出了一种神经方法，用于远程语音识别（DSR），它能够在没有隔离信号的监督情况下，同时分离和解麦克风混合的语音，并没有未知数量的活跃说话者。

Jun, 2024

ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统

本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1，我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音；对于 Track 2，我们采用 Conformer 模型和神经前端模块来训练系统，实现多声道混叠语音识别，最终取得了比较好的性能表现。

Feb, 2022

用于解耦合报到和运行阶段说话人识别模型的训练后嵌入对齐

使用轻量级神经网络将两个独立模型的嵌入式映射到共享的说话者嵌入空间，以实现非对称说话者识别系统，并在大规模数据集上训练的模型中，在共享的说话者得分空间中显著优于余弦打分。

Jan, 2024

使用双序列 LSTM 架构的语音情感识别

提出了一种新的双层模型，通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感，其中一个标准 LSTM 处理 MFCC 特征，而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms，最终将输出平均，实现了在情感识别中的 6% 的提高。

Oct, 2019

DSNet: 融合中性校准的分解孪生网络用于语音情感识别

通过引入 DSNet，一个具有中立校准的解缠结孪生网络，以满足更强大和可解释的语音情感识别模型的需求，并在两个流行的基准数据集上的实验结果证明其优越性。

Dec, 2023