Since its introduction in 2019, the whole end-to-end neural diarization
(EEND) line of work has been addressing speaker diarization as a frame-wise
multi-label classification problem with permutation-invariant tr
本文提出基于 Conformer 的端到端神经口头日记(EEND)模型,该模型利用从自动语音识别(ASR)模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合,采用新的自注意力机制来建立鲁棒的说话人表示,并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失,将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中,相对于基线,利用 ASR 特征的多任务学习最有效,在词汇位置信息下将 DER 降低了 20%。