FASA：一种用于提取高质量对齐儿童语音数据的灵活自动对齐器

Jun, 2024

FASA：一种用于提取高质量对齐儿童语音数据的灵活自动对齐器

FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data

Dancheng Liu, Jinjun Xiong

TL;DR通过提出一种新的强制对齐工具 FASA，可以从现有的嘈杂的儿童语音数据中提取高质量的对齐儿童语音数据，并显示 FASA 可以比人工标注提高数据质量 13.6 倍。

Abstract

automatic speech recognition (ASR) for adults' speeches has made significant progress by employing deep neural network (DNN) models recently, but improvement in →

automatic speech recognition deep neural network children's speech forced-alignment tool data quality

发现论文，激发创造

解决数据稀缺和分布失衡问题的有效自动化口语评估方法

使用自监督学习的方法，基于测量的分类和损失重新加权的两种新模型策略，提高了自动口语评估系统的学习者语言能力预测准确性。

Apr, 2024

FunASR：一个基础的端到端语音识别工具包

FunASR 是一种开源的语音识别工具箱，其中最具代表性的 Paraformer 模型是一种非自回归端到端语音识别模型，经过手动注释的中文语音识别数据集的训练，同时还开放了基于 FSMN-VAD 和 CT-Transformer 的语音活动检测和文本后处理标点符号模型，这些模块为建立高精度长音频语音识别服务提供了坚实的基础，相较于在公开数据集上训练的其他模型表现更佳。

May, 2023

年轻英语学习者语音的错误保留自动语音识别

在这项工作中，我们构建了一个满足条件的自动语音识别系统，用于年轻语言学习者的自由说话并保留他们的错误。

Jun, 2024

半监督语音混合训练声学模型

本文主要介绍了对 Frisian—Dutch code-switching 语音进行自动化标注和学习的几种方法，并探索了扩充语音数据的方法以提高类似语音识别模型的效果的研究。

Oct, 2018

自动语音识别（ASR）用于韩国儿童言语音障碍发音诊断

本研究提出了一种自动语音识别模型，旨在诊断具有言语音韵障碍（SSDs）的儿童的发音问题，以替代临床操作中的人工转录。该模型使用 wav2vec 2.0 XLS-R 模型进行改进，以识别实际发音而不是已有单词，并通过与人工标注相匹配的预测准确性达到约 90% 的水平。尽管该模型在识别不清晰发音方面仍需改进，但本研究表明 ASR 模型能够简化临床领域中的复杂发音错误诊断流程。

Mar, 2024

儿童与成人自动语音识别性能差距之桥梁

近期在自动语音识别系统（ASR）方面的最新进展，如 Whisper，已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而，由于适合儿童的特定数据库的有限性以及儿童语音的独特特征，这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性，同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。

Sep, 2023

使用 Transformers 和源 - 滤波变形的转移学习用于强健的低资源儿童语音自动识别

本文提出数据增广技术和转移学习策略，使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音，测试集词错误率为 4.86%。

Jun, 2022

波斯幼儿语音评估的自动语音识别

介绍了一种新的针对学前儿童语音测试的方法，通过加入 Random Frequency Pitch 目标到 Wav2Vec 2.0 模型的屏蔽目标中，在 Persian CommonVoice 数据集上达到了仅有 1.35 的字错误率，并在零次和少次测试中达到了积极的成果。

Mar, 2022

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

用受监督和自监督的语音基础模型对儿童 ASR 进行基准测试

基于多个声学模型和数据增强方法，本研究针对儿童自动语音识别（ASR）问题提出了一个全面的基准，探索了细调策略、模型大小和数据增强方法之间的关系，并提出了一个稳定的细调方法（PIF）作为正则化。

Jun, 2024