完全监督的说话人分离

Oct, 2018

Fully Supervised Speaker Diarization

Aonan Zhang, Quan Wang, Zhenyao Zhu, John Paisley, Chong Wang

TL;DR本文提出了一种全监督的说话人分离方法，称为无限交错状态循环神经网络（UIS-RNN），通过 RNN 建模不同说话人，运用了 ddCRP 解决未知说话人数量问题，并实现在线分离。在 NIST SRE 2000 CALLHOME 上，其检测率为 7.6%，优于现有最先进的基于谱聚类的分离方法。

Abstract

In this paper, we propose a fully supervised speaker diarization approach, named unbounded interleaved-state recurrent neural networks (UIS-RNN). Given extracted speaker-discriminative embeddings (a.k.a.

speaker diarization recurrent neural networks d-vectors ddcrp diarization error rate

发现论文，激发创造

使用 LSTM 进行说话者分离

本文介绍一种基于 d-vectors 的说话者辨识方法，将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合，实现了最新的说话者辨识系统，与传统 i-vector 系统相比，取得了更好的结果。

Oct, 2017

远场语音识别的神经盲分离和发言者划分

本文提出了一种神经方法，用于远程语音识别（DSR），它能够在没有隔离信号的监督情况下，同时分离和解麦克风混合的语音，并没有未知数量的活跃说话者。

Jun, 2024

无排列目标的端到端神经说话人分离

本文介绍了一种基于神经网络的说话人分离技术，将说话人分离问题转化为多标签分类问题，并提出了一个无排列的目标函数来直接最小化分离误差，从而能够更好地处理重叠语音，并通过真实录制的多说话者对话进行领域自适应，最终在模拟语音混合数据集上达到了较好的分离结果。

Sep, 2019

一种用于在线发言人分离的强化学习框架

该研究提出了一种基于强化学习的机器学习框架，用于实时的多扬声器识别和分割，并能应对有限的训练数据和分布环境的挑战。

Feb, 2023

分布式物联网网络中使用联邦学习的无监督说话人分离

该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型，可以识别对话中的参与者，无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制，解决了联邦学习模型的问题。此外，该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测，从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类，降低了逐帧说话人识别的计算开销。实验结果表明，该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段，该方法显著减少了误检和漏检，并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。

Apr, 2024

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

一种统一的模型？走向端到端的联合说话人分离与语音识别

这篇论文提出了一个名为 SLIDAR（滑动窗口判别增强识别）的新颖框架，用于联合演讲者判别和自动语音识别，能够处理任意长度的输入和任意数量的说话人，通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入，并通过聚类说话人嵌入获得全局演讲者身份，实验证实了该方法在近距离和远场语音场景中的有效性。

Oct, 2023

面向说话人识别系统的实时、通用和强鲁棒对抗攻击

本文提出了第一种实时、通用且强健的对抗攻击方案，能通过在任意用户的语音输入上添加通用扰动，在线进行万能识别。同时，利用房间脉冲响应 (RIR) 对声音失真进行建模，提高攻击的鲁棒性。在公共数据集上的实验表明，这种攻击的成功率高达 90% 以上，并且攻击速度比当代非通用攻击快 100 倍。

Mar, 2020

在端到端神经语音分离中利用说话者嵌入识别双方讲话的情景

本研究通过将发言者信息嵌入到端到端系统中，提高了发言者辨识能力，并保持了处理语音重叠的优势，通过多种方法将这些嵌入与声学特征相结合。同时，对处理静默帧、提取发言者嵌入的窗口长度和变压器编码器尺寸进行了深入分析。在 CallHome 数据集上对双发言者分析任务进行了全面评估，结果表明相对于基准端到端模型，发现有了显著的降低对话错误率，相对提高了 10.78%。

Jul, 2024