EMNLPAug, 2018

深度自动语音识别性能预测模型的学习表示分析

TL;DR本文介绍一项新任务:预测在未见过的广播节目上的 ASR 表现。使用 CNN 编码文本(ASR 转录本)和语音,以预测单词错误率。我们致力于分析 CNN 在训练预测模型时学习的语音信号嵌入和文本嵌入。我们试图更好地理解深度模型捕获的信息及其与不同调节因素的关系,并通过多任务学习利用此信息。我们的实验表明,这使能够训练效果稍微更好的 ASR 性能预测系统,同时还能够根据其语音风格、口音和广播节目的来源对分析的话语进行标记。