Sep, 2022

在孟加拉通用语音数据集上应用 Wav2Vec2 进行语音识别

TL;DR本文基于 Bengali Common Voice Speech 数据集,使用 fine-tuned 的 wav2vec 2.0 实现了对孟加拉语言音信号的识别和转录,使用了 5-gram 语言模型并计算 Levenshtein 距离,得到了最佳性能的模型具有较低的 Levenshtein 距离并表现出较高的识别准确率。