FASA:一种用于提取高质量对齐儿童语音数据的灵活自动对齐器
FunASR 是一种开源的语音识别工具箱,其中最具代表性的 Paraformer 模型是一种非自回归端到端语音识别模型,经过手动注释的中文语音识别数据集的训练,同时还开放了基于 FSMN-VAD 和 CT-Transformer 的语音活动检测和文本后处理标点符号模型,这些模块为建立高精度长音频语音识别服务提供了坚实的基础,相较于在公开数据集上训练的其他模型表现更佳。
May, 2023
本文主要介绍了对 Frisian—Dutch code-switching 语音进行自动化标注和学习的几种方法,并探索了扩充语音数据的方法以提高类似语音识别模型的效果的研究。
Oct, 2018
本研究提出了一种自动语音识别模型,旨在诊断具有言语音韵障碍(SSDs)的儿童的发音问题,以替代临床操作中的人工转录。该模型使用 wav2vec 2.0 XLS-R 模型进行改进,以识别实际发音而不是已有单词,并通过与人工标注相匹配的预测准确性达到约 90% 的水平。尽管该模型在识别不清晰发音方面仍需改进,但本研究表明 ASR 模型能够简化临床领域中的复杂发音错误诊断流程。
Mar, 2024
近期在自动语音识别系统(ASR)方面的最新进展,如 Whisper,已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而,由于适合儿童的特定数据库的有限性以及儿童语音的独特特征,这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性,同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。
Sep, 2023
本文提出数据增广技术和转移学习策略,使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音,测试集词错误率为 4.86%。
Jun, 2022
介绍了一种新的针对学前儿童语音测试的方法,通过加入 Random Frequency Pitch 目标到 Wav2Vec 2.0 模型的屏蔽目标中,在 Persian CommonVoice 数据集上达到了仅有 1.35 的字错误率,并在零次和少次测试中达到了积极的成果。
Mar, 2022
本研究通过开发和验证训练管道,使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。
Mar, 2022
基于多个声学模型和数据增强方法,本研究针对儿童自动语音识别(ASR)问题提出了一个全面的基准,探索了细调策略、模型大小和数据增强方法之间的关系,并提出了一个稳定的细调方法(PIF)作为正则化。
Jun, 2024