探究面向跨语言低资源 ASR 评估的数据分割策略
本研究在 19 种语言中使用数据,包括 10 种土著或濒危语言,在多样的形态系统(多合一的、融合的和粘着的)和不同的数据可用性下,以不同大小的训练和评估集的组合以及新的测试数据进行大规模实验,结果显示:(1)从随机拆分训练的模型能够取得更高的数值分数;(2)从随机拆分导出的模型排名倾向于更加一致地推广。
Apr, 2024
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的 ASR 模型性能。
Jun, 2024
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文研究了不同的数据分割和分割策略对口吃检测系统性能的影响,并使用 wav2vec 2.0 模型和支持矢量机 (SVM) 来检测口吃现象。我们使用 Stuttering Events in Podcasts (SEP-28k) 数据集中的不同非专属和专属分割进行训练和评估,以揭示结果与使用的分区方法的变异性,并证明 SEP-28k 数据集只由很少的演讲者占据,难以评估。为了解决这个问题,我们创建了 SEP-28k-Extended (SEP-28k-E),其中包含 SEP-28k 语料库的半自动生成的演讲者和性别信息,并建议不同的数据分割,每个分割都有助于评估口吃检测方法的其他方面。
Jun, 2022
本文研究跨语种多人语音合成以及跨语种语音转换,并将其应用于自动语音识别(ASR)系统的数据增强。经过大量实验,我们证明了通过使用仅一个目标语言说话者进行模型训练,可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距,并通过我们的数据增强方法,在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。
Mar, 2022
研究探讨了在自动语音识别中单一基准测试数据的数字推动是否具有价值,发现噪声增强有助于提高模型的泛化性能,并且使用大量的基准测试数据可以良好地代表真实世界中的性能表现,最终得出在广泛使用的数据集上训练单一声学模型可达到竞争性的研究和现实世界基准测试性能。
Oct, 2020
本研究描述了一个庞大的语音数据集的构建过程,并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。
Jul, 2023
通过引入相似、高资源语言的数据,可以提高低资源语言的自动语音识别性能,并且通过计算基于诱导声学单元的序列分布的声学令牌分布相似度 (ATDS),能够准确预测目标语言的 ASR 性能。
Feb, 2024
本文介绍了一个收集英语盈利电话会议的语料库,旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准,通过 4 个商业模型的比较,研究了地区口音对模型表现的影响,以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。
Mar, 2022