儿童个性化语音识别与测试时适应
本研究通过开发和验证训练管道,使用儿童语音数据集对最先进的神经TTS模型进行微调并进行了多方面的评估。结果表明训练后的TTS模型能够从只有5秒的参考音频样本中合成类似儿童的语音。
Mar, 2022
本文提出数据增广技术和转移学习策略,使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音,测试集词错误率为 4.86%。
Jun, 2022
本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型,分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响,结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至46.08% 和 45.53% 并且实现绝对改进14.70% 和 31.10%,同时通过仅需要5个小时的儿童语音数据,也可以超越在960个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。
Nov, 2022
我们的研究旨在探索能否将已存在的多语种ASR模型,如Whisper,适应于儿童语音以提高儿童ASR性能,并将Whisper适应于儿童语音的结果与基于自监督模型wav2vec2进行微调的结果进行比较,结果显示在儿童语音上对Whisper进行微调显著提高了ASR性能,而利用对儿童语音进行微调的wav2vec2模型甚至超过了Whisper的效果。
Jul, 2023
近期在自动语音识别系统(ASR)方面的最新进展,如Whisper,已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而,由于适合儿童的特定数据库的有限性以及儿童语音的独特特征,这一进展并不容易延伸到儿童ASR领域。最近的一项研究调查了利用My Science Tutor (MyST) 儿童语音语料库提高Whisper在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了MyST数据集的实用性,同时还强调了改善儿童ASR性能的重要挑战。结果展示了将Whisper有效集成到改善儿童语音识别领域的可行性和高效性。
Sep, 2023
该研究旨在探索将最先进的Conformer-transducer模型适应儿童语音以提高儿童语音识别性能,并将结果与之前在相同数据上进行微调的自监督wav2vec2模型和半监督多领域Whisper模型进行比较。通过详细的对比分析,我们证明了在儿童语音上微调Conformer-transducer模型相对于非微调模型能够显著提高自动语音识别性能。我们还展示了不同儿童语音数据集上的Whisper和wav2vec2适应情况,并明确wav2vec2在这三种方法中提供了最一致的性能改进。
Nov, 2023
儿童语音识别的表现有待提高,本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换,结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和Whisper模型的影响实验结果显示,对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果,相较于基准线而言,两者分别使词错误率(WER)绝对减少了约3%和提高了3.6%。此外,使用少量“高质量”语音转换生成的数据也能取得类似最佳微调模型的效果。
Jun, 2024
基于多个声学模型和数据增强方法,本研究针对儿童自动语音识别(ASR)问题提出了一个全面的基准,探索了细调策略、模型大小和数据增强方法之间的关系,并提出了一个稳定的细调方法(PIF)作为正则化。
Jun, 2024
本研究针对临床环境中儿童与成年人对话的可靠转录能力进行评估,填补了现有研究的空白。我们采用最新的语音基础模型对自闭症诊断会话中的儿童-成年人交流数据集进行全面评估,发现相较于成年人语音,儿童语音的转录性能明显下降。通过对表现最佳的模型进行微调,儿童语音的转录错误率改善了约8%。
Sep, 2024