May, 2022

基于 Bi-LSTM 评分和凝聚层次聚类 (AHC) 的说话人分离相似度测量

TL;DR本文提出了一种基于双向 LSTM 网络的语音分割与边界检测方法,用于解决多个人同时说话时 PLDA 算法无法考虑语音结构,容易出错的问题,实验表明该方法在 ICSI 会议语音数据集上的 Diarization Error Rate 可降低至 34.80%。