Sep, 2023

基于辅助网络的面向单词级端到端神经说话者日志线任务

TL;DR我们提出了具有辅助网络的 Word 级端到端神经化登记(WEEND),这是一种多任务学习算法,能够在相同的神经架构中同时执行端到端自动语音识别(ASR)和说话人登记。实验结果表明,WEEND 在所有 2 个说话人短格式场景​​上优于基线系统,并且具有推广到 5 分钟音频长度的能力。尽管 3 个或更多说话人的对话更困难,但我们发现通过足够的领域内训练数据,WEEND 有潜力提供高质量的登记文本。