到 2030 年的语音识别历史
自动语音识别在成人英语语音方面显示出超人的表现,但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量,可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究,并表明性能确实有所提高,新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美,但最佳模型可以正确识别 60.3% 的句子,除了一些小的语法差异,使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。
Apr, 2024
本文旨在探讨歌唱领域中的语音识别挑战和进展,包括音高变化、各种歌唱风格和背景音乐干扰等唱歌所特有的挑战。我们研究了音素识别、歌曲中的语言识别、关键词检测和完整歌词转写等关键领域。通过描述作者在这些任务刚开始崭露头角的研究经历,同时还介绍了近期深度学习和大规模数据集方面的新进展如何推动了该领域的进步。本文的目标是阐明将语音识别技术应用于歌唱中的复杂性,评估当前的能力,并提出未来的研究方向。
Mar, 2024
在研究中,作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5%/10.3%,但验证后发现其仍低于人类表现水平,探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。
Mar, 2017
本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模,以解决自动语音识别系统所引入的误差,并针对多轮对话建立了一个公共语料库,研究各种形式的语音输出的性能差距,并给出了初步分析。
Dec, 2022
本文介绍了一种大词汇量语音识别系统,其特点是准确、延迟低,同时其内存和计算资源占用不大,可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标,进一步使用基于 SVD 的压缩方案进一步减小内存占用,同时利用贝叶斯插值构建单一的语言模型,在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率,而以运行速度优于实时的为媒介获得更优秀的结果。
Mar, 2016
本文介绍了使用 CTC 和 LAS 系统,运用多种配准方法,构建自动语音识别模型来转录医生和患者之间的谈话,并提供了对其表现的详细分析。我们的分析表明,在重要的医疗话语上,语音识别模型表现良好,而在非正式对话中存在误差。
Nov, 2017
本文综述了说话人识别的几个主要子任务,包括说话人验证、识别、日程管理和鲁棒的说话人识别,着重介绍基于深度学习方法的说话人特征提取、说话人日程管理和鲁棒的说话人识别,以及领域适应和语音增强等方面的最新研究进展。
Dec, 2020
本文通过 VoxCeleb 说话人识别挑战的案例,深入实证研究和分析机器学习的发展过程中的偏差问题,发现每个开发阶段都存在偏差,建议采取实践性措施和未来研究方向以缓解这一问题。
Jan, 2022