用于个性化处理非典型语音的超网络
本文提出并评估了微调技术,以提高自动语音识别系统对非标准语音的识别准确性,特别关注两种非标准语音:肌萎缩侧索硬化症患者的言语和带口音的言语,并训练出个性化模型,相对于标准语音,相对词错误率能提高62%和35%,仅五分钟的训练就能带来71%的提升,微调部分层的结果往往比微调整个模型更好,是构建肌无力性言语最先进的自动语音识别模型的第一步。
Jul, 2019
本文阐述了在处理非典型和带有重重口音的语音时,通过添加所谓的残差适配器,可以在只更新模型的极小部分参数时实现类似于模型微调的效果,从而优化ASR系统的性能。
Sep, 2021
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在Librispeech数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来2.74-6.52%的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文介绍一种基于 OpenAI Whisper ASR 的大规模 ASR 系统来评估适应方案的方法,该方法采用基于错误校正的方法并且可应用于不同结构的语音识别模型以提高模型的适应性。
Jun, 2023
研究了预训练于Librispeech语料库上并经过领域适配后用于识别老年人和患有运动障碍的语音数据集的Conformer ASR系统的超参数自适应,证明其能够显著提高词错误率的表现。
Jun, 2023
提出了一种名为 METHODNS 的自动语音识别框架,通过模块化的方法实现低资源适应能力和多语言可扩展性,能够显著提高多语言和低资源语音识别的性能。
Jun, 2023
通过发布ASR假设修正(HypR)数据集和对几种经典的代表性方法进行实现和比较,展示了修正语音识别结果的最新研究进展,希望这些公开可用的HypR数据集能够成为进一步研究的参考基准,并推动相关研究领域的发展。
Sep, 2023
采用外部巨大语言模型(LLMs)进行自动语音识别(ASR)错误订正的首个开源基准测试涵盖了超过334,000个N-best假设及相应准确转录数据对,通过三种不同程度标记的假设-转录对利用LLMs实现了显著的词错误率(WER)降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了N-best列表中缺失的标记,提供了一个基于LLMs的ASR错误订正的全新评估范式。
Sep, 2023
Neural speech synthesis and domain adaptation in text-to-speech (TTS) achieved state-of-the-art performance using HyperTTS, a parameter-efficient model with Adapter blocks conditioned on speaker representations through a dynamic hypernetwork.
Apr, 2024
自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的ASR设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的ASR处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调wav2vec 2.0也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的ASR包容性,而且为能够适应更广泛的语音变化的ASR铺平了道路。
Jun, 2024