分布式物联网网络中使用联邦学习的无监督说话人分离

Apr, 2024

分布式物联网网络中使用联邦学习的无监督说话人分离

Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning

Amit Kumar Bhuyan, Hrishikesh Dutta, Subir Biswas

TL;DR该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型，可以识别对话中的参与者，无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制，解决了联邦学习模型的问题。此外，该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测，从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类，降低了逐帧说话人识别的计算开销。实验结果表明，该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段，该方法显著减少了误检和漏检，并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。

Abstract

This paper presents a computationally efficient and distributed speaker diarization framework for networked IoT-style audio devices. The work proposes a federated learning model which can identify the participants in a conversation without the requirement of a large audio database for

speaker diarization federated learning unsupervised segmentation techniques speaker change detection iot audio network

发现论文，激发创造

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

无监督说话人分离：对语言，重叠以及参数调整不敏感

本文探讨了一种不依赖于语种特定组件的无监督的演讲者分离技术，该算法具有覆盖感知功能，不需要有关演讲者数量的信息，并在播客数据上表现出了 79％的纯度得分改进（34％的 F - 分数）。

Jul, 2022

使用联邦学习训练语音识别模型：质量 / 成本框架

本文提出使用联邦学习来训练语音识别模型，并通过对非独立同分布数据分布程度的调整来平衡模型质量和联邦训练计算成本之间的关系，并证明超参数优化和适当使用变分噪声可以弥补非独立同分布数据对模型影响的影响。

Oct, 2020

完全监督的说话人分离

本文提出了一种全监督的说话人分离方法，称为无限交错状态循环神经网络（UIS-RNN），通过 RNN 建模不同说话人，运用了 ddCRP 解决未知说话人数量问题，并实现在线分离。在 NIST SRE 2000 CALLHOME 上，其检测率为 7.6%，优于现有最先进的基于谱聚类的分离方法。

Oct, 2018

会议在线发言人分化的语音分离指导

我们介绍了一种新的基于语音分离引导的在线发言人分化方案，适用于持续变动的说话人数量的长时间会议录音。

Jan, 2024

一种用于在线发言人分离的强化学习框架

该研究提出了一种基于强化学习的机器学习框架，用于实时的多扬声器识别和分割，并能应对有限的训练数据和分布环境的挑战。

Feb, 2023

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

基于时空贝叶斯融合的音视频说话人分离

本文介绍了一种音视频 “位置时间标记” 模型，其中多人视觉跟踪与多重语音源定位相结合，通过一种音视频融合方法对话音频信号进行了分离，从而能够同时处理多人的语音信号。该模型在多方交互的情况下处理多人同时发出的语音信号，解决了多人语音辨别问题。

Mar, 2016

嵌入式智能多传感器表征的联邦自监督学习

提出了一种基于小波变换的自监督学习方法，用于从未标注的传感器输入中学习有用的表示，该方法通过优化对比目标使用深时间神经网络来确定一对信号和其补充视图（即使用小波变换生成的 scalogram）是否对齐，对无标签的数据进行训练可以提高泛化能力，并在多个任务中实现了具有竞争力的性能。

Jul, 2020

MiniVox 中作为全在线学习问题的说话人分离

本研究提出了一种新型的机器学习框架，可以在完全在线学习的情况下实现实时的多说话者辨识和识别，同时通过半监督和自监督学习方法解决了在线学习中出现的奖励呈现问题，并提供了一个可以交互处理冷启动问题的可行的基于网络的识别系统。

Jun, 2020