利用 wav2vec 2.0 进行 L2 口语英语的熟练度评估
本文介绍一种基于自监督语音表示的自动口语评估系统,并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明,该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。
Nov, 2022
自动语音质量评估中,由于数据稀缺,大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法,通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器,将学习系统从片段级别提升至音频级别,从而建立了一个新的基准,使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测,平均均方误差分别为 0.73 和 1.15。结果表明,基于 ASR 的 Wav2Vec2 模型带来了最佳结果,并且可能暗示了 ASR 与语音质量评估之间的强相关性。同时,我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。
Mar, 2024
本文提出了一种基于 self-supervised 的 Wav2vec 2.0 框架,可用于说话人验证和语言识别,通过多任务学习使用一个模型进行统一建模,并在相关数据集上取得了良好的成果。
Dec, 2020
本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务,实验结果表明,使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中,能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。
Oct, 2022
在语音识别系统中,使用 native English 训练出的模型在非母语人士的语音识别上表现欠佳。因此,本文对 pre-trained wav2vec 2.0 模型进行多种 L1 和 L2 训练条件的 fine-turning,并引入语言模型解码技术。这两种方法的量化收益及误差分析为改进模型的不同来源提供了数据,并证明了 L2 语音中引入语言模型解码技术的实用性。
Feb, 2022
本研究通过对原始音频进行特征学习,探索无监督的语音识别预训练方法,在大量无标注音频数据上进行训练,结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中,仅使用少量已识别数据,我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36%,最终的 WER 为 2.43%,使用的标注数据量较 Deep Speech 2 少两个数量级。
Apr, 2019
本研究首次证明了从语音音频中学习强大的表征,然后在经过转录的语音上进行微调可以胜过最好的半监督方法,而且概念上更简单, 示范了在有限标注数据情况下实现语音识别的可行性。
Jun, 2020
该研究提出了一种简单有效的跨语言转移学习方法,以适应资源匮乏语言的单语言 wav2vec-2.0 模型的自动语音识别(ASR),并通过使用目标语言中的一组适度大小的无标签语音数据集和几个 Dropout 不确定性驱动的自我训练(DUST)迭代进一步提高其性能。该调整后的 wav2vec-2.0 在目标语言 ASR 任务上达到了类似于训练了 53 种语言的顶级多语言 XLSR 模型的性能。
Oct, 2021
本文介绍了在大数据集上通过预训练机器学习模型和微调等方法,利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估,并取得成功的实验结果。
Jun, 2022
通过使用预训练的 wav2vec 2.0 模型作为特征提取器,本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类,结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征(声谱图)提升了 1.23%,在严重程度分类任务中最终层的嵌入特征相较于基线特征(梅尔频率倒谱系数)提升了 10.62%。
Sep, 2023