Apr, 2024

分布式物联网网络中使用联邦学习的无监督说话人分离

TL;DR该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型,可以识别对话中的参与者,无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制,解决了联邦学习模型的问题。此外,该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测,从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类,降低了逐帧说话人识别的计算开销。实验结果表明,该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段,该方法显著减少了误检和漏检,并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。