基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测

Jan, 2024

基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测

Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired Users using Intermediate ASR Features and Human Memory Models

PDF

Rhiannon Mogridge, George Close, Robert Sutherland, Thomas Hain, Jon Barker...

TL;DR利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示，结合人类记忆的示例驱动型心理模型，预测助听器用户的人类可懂度评级，并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。

Abstract

neural networks have been successfully used for non-intrusive speech intelligibility prediction. Recently, the use of feature representations sourced from intermediate layers of pre-trained self-supervised and we

neural networks speech intelligibility feature representations whisper asr decoder human memory

发现论文，激发创造

自我监督语音表示下的非侵入式听障人士智能可懂度预测

将自我监督语音表示应用于对听力受损用户的清晰度预测中，研究发现自我监督表示作为非侵入性预测模型的输入特征具有竞争力的性能，能够在复杂系统上预测清晰度评估

Jul, 2023

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

利用 Whisper 增强 Hearing Aids 的多分支语音可懂度预测模型

自动评估助听器设备中的语音可懂性非常重要。本文在以往研究基础上，提出了两种改进的模型 MBI-Net + 和 MBI-Net++，通过利用 Whisper 嵌入来增强声学特征，从而进一步提高 MBI-Net 模型的性能。实验结果表明，MBI-Net++ 和 MBI-Net + 在多项指标上均较 MBI-Net 具有更好的预测性能，而 MBI-Net++ 优于 MBI-Net+。

Sep, 2023

探究神经网络语音模型中自动语音识别系统所编码的信息

通过神经网络的层级表达，在多个任务中评估自动语音识别声学模型的性能变化和目标任务，我们可以推测哪些信息在不同层次的架构步骤中得到强化或干扰。分析结果显示，基于神经网络的声学模型拥有异质信息，似乎与音素识别没有相关性，例如情感、情绪或说话人身份，而低层隐藏层总体上对信息结构有用，而上层则倾向于删除对音素识别无用的信息。

Feb, 2024

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

噪声语音识别的不变表示

本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示，以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性，尤其适用于仅针对少量噪声类别进行训练的情况。

Nov, 2016

PI-Whisper：面向多样化和不断演化的说话人特征的自适应增量式语音识别框架

通过边缘自动语音识别（ASR）技术，本研究提出了 PI-Whisper 框架，以增强 ASR 的适应性、实现增量式处理和促进多元化使用者群体的公平性和公正性，并在状态 - of-the-art 的准确性下降为主的情况下，提高 13.7％的识别准确率。

Jun, 2024

关键词引导的自动语音识别适应

通过上下文偏差对 Whisper 模型进行改进，提出了一种优化行话词识别的新方法。采用关键词检测模型，利用 Whisper 编码器表示动态生成的提示来引导解码器。引入了 KG-Whisper 和 KG-Whisper-PT 两种方法来有效引导解码器，并在特定关键词的识别准确率和整体词错误率上取得了显著的改进。在未见过的语言泛化中，与 Whisper 相比，平均词错误率提高了 5.1%。

Jun, 2024

自监督学习用于语音识别中间层辅助训练

利用中间层监督自监督学习（ILS-SSL）对语音预训练模型进行优化，可以更好地集中于音频内容信息学习，从而实现识别性能的提高，并且在语言模型不被使用情况下，相对字错率下降 23.5%。

Dec, 2021

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021