儿童-成年人互动中最先进的自动语音识别模型评估
本研究通过开发和验证训练管道,使用儿童语音数据集对最先进的神经TTS模型进行微调并进行了多方面的评估。结果表明训练后的TTS模型能够从只有5秒的参考音频样本中合成类似儿童的语音。
Mar, 2022
本文提出数据增广技术和转移学习策略,使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音,测试集词错误率为 4.86%。
Jun, 2022
本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型,分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响,结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至46.08% 和 45.53% 并且实现绝对改进14.70% 和 31.10%,同时通过仅需要5个小时的儿童语音数据,也可以超越在960个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。
Nov, 2022
我们的研究旨在探索能否将已存在的多语种ASR模型,如Whisper,适应于儿童语音以提高儿童ASR性能,并将Whisper适应于儿童语音的结果与基于自监督模型wav2vec2进行微调的结果进行比较,结果显示在儿童语音上对Whisper进行微调显著提高了ASR性能,而利用对儿童语音进行微调的wav2vec2模型甚至超过了Whisper的效果。
Jul, 2023
近期在自动语音识别系统(ASR)方面的最新进展,如Whisper,已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而,由于适合儿童的特定数据库的有限性以及儿童语音的独特特征,这一进展并不容易延伸到儿童ASR领域。最近的一项研究调查了利用My Science Tutor (MyST) 儿童语音语料库提高Whisper在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了MyST数据集的实用性,同时还强调了改善儿童ASR性能的重要挑战。结果展示了将Whisper有效集成到改善儿童语音识别领域的可行性和高效性。
Sep, 2023
该研究旨在探索将最先进的Conformer-transducer模型适应儿童语音以提高儿童语音识别性能,并将结果与之前在相同数据上进行微调的自监督wav2vec2模型和半监督多领域Whisper模型进行比较。通过详细的对比分析,我们证明了在儿童语音上微调Conformer-transducer模型相对于非微调模型能够显著提高自动语音识别性能。我们还展示了不同儿童语音数据集上的Whisper和wav2vec2适应情况,并明确wav2vec2在这三种方法中提供了最一致的性能改进。
Nov, 2023
我们的研究工作探索了言语基础模型在儿童成人说话人分离中的应用能力,并发现出色的基础模型相对于以前的方法在分离错误率和说话人混淆率方面可以实现39.5%和62.3%的相对降低。此外,我们还评估了输入音频窗口大小、说话人特点和训练数据比例对言语基础模型的分离结果的影响,结果显示有希望通过采用言语基础模型来促进对儿童说话的理解。
Jun, 2024
基于多个声学模型和数据增强方法,本研究针对儿童自动语音识别(ASR)问题提出了一个全面的基准,探索了细调策略、模型大小和数据增强方法之间的关系,并提出了一个稳定的细调方法(PIF)作为正则化。
Jun, 2024
本研究针对自闭症谱系障碍(ASD)儿童在治疗过程中行为变化评估中的不足,通过设计实验从自我中心视角进行言语采样,旨在提高发言者分类的准确性。创新之处在于采用可穿戴传感器和Ego4D言语样本预训练,发现其能显著改善儿童与成人在双边互动中的发言者认知能力。
Sep, 2024
此研究解决了儿童语音识别准确性不足的问题,特别是由于现有语音识别模型主要对成年人数据进行预训练,导致对儿童语音的适应性差。本文提出了一种新的无监督测试时适应方法,使得预训练于成人语音的模型能在测试阶段持续适应每个儿童说话者,结果表明适应后的模型在多个说话者的语音识别表现上显著优于未适应的模型。
Sep, 2024