儿童语音识别的离散标记增强
我们提出了 TokenSplit,一种在离散标记序列上操作的语音分离模型。该模型通过输入掩码实现多任务训练,包括将每个语音源进行分离和转录,并从文本生成语音。我们还介绍了模型的 “修正” 版本,该版本通过传统分离模型分离的音频标记预测增强音频标记。通过客观度量和主观 MUSHRA 听测,我们证明了我们的模型在分离方面具有优秀的性能,无论是否有转录条件。我们还测量了自动语音识别(ASR)性能,并提供了语音合成的音频样本来展示我们模型的附加效用。
Aug, 2023
近期在自动语音识别系统(ASR)方面的最新进展,如 Whisper,已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而,由于适合儿童的特定数据库的有限性以及儿童语音的独特特征,这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性,同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。
Sep, 2023
通过发布离散音频和语音基准 (DASB),我们研究了离散音频标记符在各种任务中的性能表现,并发现语义标记比压缩标记在大多数任务中表现更好,但语义标记和标准连续表示之间的性能差距仍然存在。
Jun, 2024
本文研究在野外临床数据中使用预训练语音模型进行分割和分辨,提出了少实例阈值适应方法,并发现默认分类阈值下的模型在患者群体中表现较差,错误率与患者病情的严重程度直接相关,而研究表明三分钟的临床医生 - 儿童对话足以获得最佳分类阈值。
Apr, 2022
儿童语音识别的表现有待提高,本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换,结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示,对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果,相较于基准线而言,两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外,使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。
Jun, 2024
自动语音识别在成人英语语音方面显示出超人的表现,但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量,可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究,并表明性能确实有所提高,新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美,但最佳模型可以正确识别 60.3% 的句子,除了一些小的语法差异,使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。
Apr, 2024
本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型,分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响,结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%,同时通过仅需要 5 个小时的儿童语音数据,也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。
Nov, 2022
本文提出了一种基于滤波的判别性自编码器技术,旨在解决儿童语音识别中多种说话人类型和音高的影响问题,并在测试集上实现了较基准系统更高的识别率,并在英国口音 PF-STAR 任务中实现了比基线系统更好的结果。
Apr, 2022