深度自动语音识别性能预测模型的学习表示分析

EMNLPAug, 2018

深度自动语音识别性能预测模型的学习表示分析

Analyzing Learned Representations of a Deep ASR Performance Prediction Model

Zied Elloumi, Laurent Besacier, Olivier Galibert, Benjamin Lecouteux

TL;DR本文介绍一项新任务：预测在未见过的广播节目上的 ASR 表现。使用 CNN 编码文本（ASR 转录本）和语音，以预测单词错误率。我们致力于分析 CNN 在训练预测模型时学习的语音信号嵌入和文本嵌入。我们试图更好地理解深度模型捕获的信息及其与不同调节因素的关系，并通过多任务学习利用此信息。我们的实验表明，这使能够训练效果稍微更好的 ASR 性能预测系统，同时还能够根据其语音风格、口音和广播节目的来源对分析的话语进行标记。

Abstract

This paper addresses a relatively new task: prediction of ASR performance on unseen broadcast programs. In a previous paper, we presented an ASR performance prediction system using cnns that encode both text (ASR transcript) and speech, in order to predict word error rate. This work is

asr performance prediction cnns speech signal embeddings text embeddings multi-task learning

发现论文，激发创造

使用卷积神经网络预测未见过的广播节目的 ASR 表现

本文研究了如何使用卷积神经网络对未见过的广播节目语音识别性能进行预测，并比较了传统基于回归的性能预测方法和基于卷积神经网络的新策略。该研究尤其关注了音频信号和 ASR 文本样本的联合使用对预测准确性的影响，并证实了基于卷积神经网络的预测能够非常准确地预测广播节目中的语音识别错误率分布。

Apr, 2018

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024

端到端语音识别的神经表示洞察

本文分析了使用 CNN、LSTM 和 Transformer 等网络模型进行端到端自动语音识别模型训练时层之间的内部动态，通过规范相关性分析和中心核对齐，发现 CNN 层内的神经表示随着层深度的增加而表现出层级相关性依赖性，而这种行为在 LSTM 架构中不会观察到，但在 Transformer 编码器层中会出现不规则的系数相关性随神经深度的增加而增加，这些结果提供了神经体系结构对语音识别性能的作用的新见解，可用作构建更好的语音识别模型的指示器。

May, 2022

分析端到端自动语音识别系统中的隐藏表示

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021

针对语音识别鲁棒性的上下文化嵌入在口语理解中的学习

本研究提出了一种新的混淆感知的微调方法，以减轻 ASR 误差对已预训练的语言模型产生的影响，并在 ATIS 数据集上进行了实验，结果表明该方法显著提高了 ASR 转录文本上口语理解的性能。

Sep, 2019

自然语音识别可视化 —— 提高理解的方法？

本文介绍了如何使用图像识别中的归因方法，结合音频数据，帮助可视化深度神经网络自动语音识别模型中输入的哪些特征对输出结果影响最大。通过比较 Layer-wise Relevance Propagation（LRP）、Saliency Maps 和 Shapley Additive Explanations（SHAP）这三种可视化技术，展示了归因方法的优势和应用前景，包括在检测对抗性样本方面。

Feb, 2022

探究用于端到端语音识别的统计表示

分析了 transformer 架构中跨域语言模型依赖关系的研究，使用 SVCCA 发现转换器层中的特定神经表示具有相关行为，并影响识别性能。这项工作提供了有关模型方法的分析，这些模型方法影响了环境依赖关系和 ASR 性能，可以用于创建或调整性能更好的 End-to-End ASR 模型和下游任务。

Nov, 2022

语音识别中的隐私保护对抗性表征学习：现实还是幻象？

本文旨在研究自动语音识别中隐私保护的问题，提出了利用深度编码器 - 解码器架构中的预训练技术来保护说话人身份，通过对开放和封闭说话人集的说话人识别和验证实验，论证了对抗训练架构可以显著减少封闭集的分类精度，提高个人隐私保护的效果。

Nov, 2019