基于 Wav2vec2 的口齿不清语音识别中的发音人自适应
使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统,对患有言语障碍的英语、西班牙语和意大利语使用者进行识别,结果表明相较于 Fbank 特征,使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。
Apr, 2022
该研究提出了一种简单有效的跨语言转移学习方法,以适应资源匮乏语言的单语言 wav2vec-2.0 模型的自动语音识别(ASR),并通过使用目标语言中的一组适度大小的无标签语音数据集和几个 Dropout 不确定性驱动的自我训练(DUST)迭代进一步提高其性能。该调整后的 wav2vec-2.0 在目标语言 ASR 任务上达到了类似于训练了 53 种语言的顶级多语言 XLSR 模型的性能。
Oct, 2021
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文探讨了将领域适应 SSL 预训练模型整合到 TDNN 和 Conformer ASR 系统中,以识别老年人和患有发音障碍的人的语音,并通过实验获得了很好的效果。
Feb, 2023
通过使用预训练的 wav2vec 2.0 模型作为特征提取器,本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类,结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征(声谱图)提升了 1.23%,在严重程度分类任务中最终层的嵌入特征相较于基线特征(梅尔频率倒谱系数)提升了 10.62%。
Sep, 2023
本研究通过对原始音频进行特征学习,探索无监督的语音识别预训练方法,在大量无标注音频数据上进行训练,结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中,仅使用少量已识别数据,我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36%,最终的 WER 为 2.43%,使用的标注数据量较 Deep Speech 2 少两个数量级。
Apr, 2019
该研究提出了两种新型的基于特征的即时演讲者适应方法,即基于演讲者水平的方差规范化谱基础嵌入 (SBEVR) 特征和基于即时学习的隐藏单元贡献 (LHUC) 转换。实验结果显示,这两种方法在适应演讲者语音时表现出色,其中基于 SBEVR 特征的适应方式的性能优于基于模型的 LHUC 适应。
Mar, 2022
本研究通过研究两个小数据集,其中一个是公开的,探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性,相对于基于 ASR 和手动转录训练的 BERT 基准系统,发现此方法有很大的提升。
Oct, 2022
自动语音质量评估中,由于数据稀缺,大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法,通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器,将学习系统从片段级别提升至音频级别,从而建立了一个新的基准,使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测,平均均方误差分别为 0.73 和 1.15。结果表明,基于 ASR 的 Wav2Vec2 模型带来了最佳结果,并且可能暗示了 ASR 与语音质量评估之间的强相关性。同时,我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。
Mar, 2024
本文提出了一种基于 self-supervised 的 Wav2vec 2.0 框架,可用于说话人验证和语言识别,通过多任务学习使用一个模型进行统一建模,并在相关数据集上取得了良好的成果。
Dec, 2020