重叠感知的端到端监督层次图聚类用于发言人分离
本文提出了一种基于双向 LSTM 网络的语音分割与边界检测方法,用于解决多个人同时说话时 PLDA 算法无法考虑语音结构,容易出错的问题,实验表明该方法在 ICSI 会议语音数据集上的 Diarization Error Rate 可降低至 34.80%。
May, 2022
提出了一种基于端到端模型的说话人分割方法,直接进行说话人划分,通过多标签分类解决此任务,同时可用于语音活动检测和重叠语音检测,且在多个数据集上都有显著的表现提升。
Apr, 2021
本研究文章介绍我们的新方法 STHG,采用统一的异构图学习框架对视频中的所有说话者进行建模,应用于 Ego4D Challenge 2023 的 Audio-Visual Diarization 任务,取得了 61.1% 的 DER 表现,并在该挑战赛中获得了第一名,同时展示了将该方法应用于 Speech Transcription 任务时表现优异的结果。
Jun, 2023
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身份,实验证实了该方法在近距离和远场语音场景中的有效性。
Oct, 2023
本文使用基于深度学习的深度聚类方法及信号逼近技术,改进基线深度聚类算法,显著补偿了音频信号分离中的低信噪比问题,实现了在多说话人场景下的语音信号分离,通过自动语音识别实验,该算法在混响背景下将语音识别错误率从 89.1% 降至 30.8%,有效解决了鸡尾酒会效应问题。
Jul, 2016
在本文中,我们提出了一种新的框架,将神经联合抄录模型(EEND)应用于长篇音频,既不需要单独的说话者嵌入,又能够在本地和全局上实现显著的相对 DER 降低以及处理时间的计算复杂性探索。
Jun, 2024
本文通过对 9 个不同测评的广泛实验,展示了从多标签分类转换到功集多类分类的形式可以显著提高性能(特别是对于重叠语音)和对领域不匹配的鲁棒性,同时消除多标签分类的检测阈值超参数。
Oct, 2023
该论文提出了一种计算效率高且分布式的网络 IoT 音频设备的说话人分离框架。通过提出的联邦学习模型,可以识别对话中的参与者,无需大型音频数据库进行训练。通过余弦相似度的无监督在线更新机制,解决了联邦学习模型的问题。此外,该论文提出的分离系统通过使用 Hotelling 的 t 平方统计和贝叶斯信息准则的无监督分割技术解决了说话人变化检测问题。该方法通过检测到的准静音来偏置说话人变化检测,从而减少漏检和误检率之间的权衡。通过无监督的语音片段聚类,降低了逐帧说话人识别的计算开销。实验结果表明,该训练方法在非独立同分布的语音数据中具有良好的效果。在分割阶段,该方法显著减少了误检和漏检,并降低了计算开销。准确性提高和计算成本降低使该机制适用于分布式 IoT 音频网络中的实时说话人分离。
Apr, 2024
本文提出了一种全监督的说话人分离方法,称为无限交错状态循环神经网络(UIS-RNN),通过 RNN 建模不同说话人,运用了 ddCRP 解决未知说话人数量问题,并实现在线分离。在 NIST SRE 2000 CALLHOME 上,其检测率为 7.6%,优于现有最先进的基于谱聚类的分离方法。
Oct, 2018
该论文描述了 TSUP 团队在 ISCSLP 2022 CSSD 挑战赛中的参赛表现和关键研究成果,侧重于短话语音者分离与新的评价指标 CDER。SC 方法是最受欢迎的方法并且所有的三种语音者分离系统都需要调参,最后 SC 系统的表现居于第三名。
Oct, 2022