Apr, 2024

儿童在人机交互中的语音识别:问题解决了吗?

TL;DR自动语音识别在成人英语语音方面显示出超人的表现,但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量,可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究,并表明性能确实有所提高,新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美,但最佳模型可以正确识别 60.3% 的句子,除了一些小的语法差异,使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。