MiniVox 中作为全在线学习问题的说话人分离
本文介绍了 Microsoft 公司的单声道多人对话录音扬声器辨识系统,并用 VoxCeleb 挑战赛 2020 年的说话人辨识赛道进行了评估。论文首先介绍了解决真实多人对话记录中的问题的系统设计。然后介绍了组件的细节,其中包括 Res2Net 基于说话人嵌入提取器,基于 conformer 的连续语音分离和泄漏过滤,以及修改后的 DOVER 方法用于系统融合。使用 VoxSRC challenge 2020 提供的数据集进行系统评估。我们的最佳系统在开发集上的辨识错误率(DER)为 3.71%,在评估集上的 DER 为 6.23%,并在挑战的辨识赛道上排名第一。
Oct, 2020
在线说话者辨识提供了 “谁何时说话” 的答案,可用于完成音频转录和后续处理步骤;本文概述了在线说话者辨识的历史、训练与评估数据集,详细讨论了在线辨识方法与系统,并提出了该领域需要未来研究解决的挑战。
Jun, 2024
提出自监督的音视频同步学习方法,通过引入动态三元组损失和多项式损失函数来解决说话人分离问题,结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率,并且介绍了一个新的大规模中文音视频语料库。
Feb, 2020
本研究旨在使用自动化音频视觉分离方法对 YouTube 视频进行说话者分割。研究将自己设计的说话者模型运用于半自动数据集创建流程中,从而显著减少注释视频所需的时间。通过这种方式,研究人员成功地发布了一个名为 VoxConverse 的大规模分离数据集。
Jul, 2020
该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型,可以识别对话中的参与者,无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制,解决了联邦学习模型的问题。此外,该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测,从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类,降低了逐帧说话人识别的计算开销。实验结果表明,该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段,该方法显著减少了误检和漏检,并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。
Apr, 2024
本文综述了演讲者分离技术的历史发展,并重点介绍了基于深度学习的新进展,以及演讲者分离系统与语音识别应用之间的相互作用。我们认为,这是一篇有价值的综述工作,为进一步提高演讲者分离效率提供了有力的支持。
Jan, 2021
本研究论文介绍了一种使用麦克风阵列和 360 度摄像头生成会议演讲者注释转录的系统,该系统能够处理重叠性语音并使用连续语音分离方法解决该问题。同时,还通过融合脸部跟踪和识别、声源定位、演讲者识别及先前演讲者信息的在线音频视觉演讲者日记化方法,提供了一个名为 SRD 的会议转录框架,并使用 11 名与会者的会议录音的实验结果表明,连续语音分离方法相对于高度调整的波束成形技术可将字词错误率降低 16.1%。当有完整的与会者名单时,字词错误率与演讲者归属字词错误率之间的差异仅为 1.0%,表明字词与演讲者之间的关联准确无误。当 50% 的与会者对系统不知情时,差异略有增加,为 1.6%。
Dec, 2019
本文提出了一种全监督的说话人分离方法,称为无限交错状态循环神经网络(UIS-RNN),通过 RNN 建模不同说话人,运用了 ddCRP 解决未知说话人数量问题,并实现在线分离。在 NIST SRE 2000 CALLHOME 上,其检测率为 7.6%,优于现有最先进的基于谱聚类的分离方法。
Oct, 2018