BriefGPT.xyz
Ask
alpha
关键词
end-to-end diarization-augmented speech transcription
搜索结果 - 1
一种统一的模型?走向端到端的联合说话人分离与语音识别
这篇论文提出了一个名为 SLIDAR(滑动窗口判别增强识别)的新颖框架,用于联合演讲者判别和自动语音识别,能够处理任意长度的输入和任意数量的说话人,通过滑动窗口方法实时给出窗口内的转录、判别和说话人嵌入,并通过聚类说话人嵌入获得全局演讲者身
→
PDF
9 months ago
Prev
Next