May, 2023

联合CTC损失和自监督预训练声学编码器的端到端口语理解

TL;DR本研究通过利用自我监督的声学编码器,提取文本嵌入,结合联合CTC和SLU损失的方法,实现了语音理解任务的话语级SLU模型,并在DSTC2数据集上比SOTA对话行为分类模型提高4%绝对值,在SLURP数据集上比SOTA SLU模型提高1.3%绝对值。