多领域训练提高口音语音识别
使用少量的长形式非洲裔美国英语(AAE)数据,通过将分类器输出与地理信息相结合,优化洲外识别器,从而减少 AAE 与 MAE 之间的相对词错误率差异 38.5%,而不降低 MAE 的质量。
Sep, 2023
本文提出了一个领域对抗训练算法(DAT)来缓解口音识别问题。我们将领域对抗训练(DAT)目标与 Kaldi TDNN 网络的学习目标相结合,鼓励模型学习不受口音影响的特征,以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验,我们发现,与仅训练标准口音数据的基线相比,当我们没有口音转录时,DAT 可以使得字符错误率相对降低达 7.45%。我们还发现,DAT 与口音数据自动转录训练结合使用时具有优势,并且 DAT 比多任务学习在口音识别方面更为优异。
Jun, 2018
本研究旨在探讨利用不同应用范畴的大规模培训数据,构建单一领域不变模型的想法,以达到普适性应用并允许快速自适应,并通过实验证明培训模型的可行性和适应性。
Aug, 2018
本文提出一种基于多领域音频模型的教师 - 学生训练框架,成功地构建了一个应用于多个领域的音频模型,通过对两种不同域名的语音风格实验验证效果,取得了比基线模型(多条件模型)更好的结果,相对字符错误率提高达到了 10.4%。
Jul, 2019
通过元学习技术,本研究提出了一种快速扩展普通话语音识别中口音领域的方法,有效地改善了普通话语音识别在口音方面的性能,比其他方法相对提高了约 3%。
Jul, 2023
使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。
Mar, 2023
本文提出了一种无监督自适应错误校正方法,可以在未见过的领域中恢复由领域差异引起的语音识别错误,使用伪标记技术生成学习样本,在持续学习中以减少过度拟合,并使用编码器 - 解码器校正模型结合其他信息以进一步提高适应性,实验结果表明,该方法相对于未自适应的 ASR 系统显著降低了单词错误率,并可用于其他适应方法以带来额外的 10% 的性能提升。
Sep, 2022
本文提出了一种简单的技术,通过机器翻译实现 ASR 误差校正的领域自适应,我们使用了 Google ASR 和 ASPIRE 模型进行了实验,结果显示我们的方法可以使 Google ASR 输出的字错率下降 7%,其 BLEU 分数绝对值提高了 4 点;同时,通过流下游任务 Speaker Diarization,我们还评估了 ASR 误差校正,并捕捉了由 ASR 更正而获得的说话人风格、语法、结构和语义改进。
Mar, 2020