到 2030 年的语音识别历史

Jul, 2021

The History of Speech Recognition to the Year 2030

Awni Hannun

TL;DR本文研究了语音识别技术的发展历程以及未来发展的趋势，预测到了未来在语音识别技术方面将会取得令人兴奋的进步。

Abstract

The decade from 2010 to 2020 saw remarkable improvements in automatic speech recognition. Many people now use speech recognition on a daily basis, for example to perform voice search queries, send text messages,

speech recognition voice search voice assistants technology forecast

发现论文，激发创造

儿童在人机交互中的语音识别：问题解决了吗？

自动语音识别在成人英语语音方面显示出超人的表现，但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量，可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究，并表明性能确实有所提高，新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美，但最佳模型可以正确识别 60.3% 的句子，除了一些小的语法差异，使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。

Apr, 2024

言不足以表达：歌唱语音识别中的进展与挑战

本文旨在探讨歌唱领域中的语音识别挑战和进展，包括音高变化、各种歌唱风格和背景音乐干扰等唱歌所特有的挑战。我们研究了音素识别、歌曲中的语言识别、关键词检测和完整歌词转写等关键领域。通过描述作者在这些任务刚开始崭露头角的研究经历，同时还介绍了近期深度学习和大规模数据集方面的新进展如何推动了该领域的进步。本文的目标是阐明将语音识别技术应用于歌唱中的复杂性，评估当前的能力，并提出未来的研究方向。

Mar, 2024

人机英语会话电话语音识别

在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Mar, 2017

语音感知对话系统技术挑战赛（DSTC11）

本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模，以解决自动语音识别系统所引入的误差，并针对多轮对话建立了一个公共语料库，研究各种形式的语音输出的性能差距，并给出了初步分析。

Dec, 2022

直接语音转文本翻译的最新进展

本文综述了直接语音翻译的当前技术状况，将现有研究工作分为三个方向：建模负担，数据稀缺和应用问题，并提出了未来工作的一些有前途的方向。

Jun, 2023

对话语言的自动语音识别系统评估：语言学视角

本文以法语为案例研究，从语言学的角度探讨自动语音识别系统在复杂语境下的识别准确度，并解决了法语同音词的歧义问题，提高了法语语音转写准确度。

Nov, 2022

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

医疗对话语音识别

本文介绍了使用 CTC 和 LAS 系统，运用多种配准方法，构建自动语音识别模型来转录医生和患者之间的谈话，并提供了对其表现的详细分析。我们的分析表明，在重要的医疗话语上，语音识别模型表现良好，而在非正式对话中存在误差。

Nov, 2017

基于深度学习的说话人识别综述

本文综述了说话人识别的几个主要子任务，包括说话人验证、识别、日程管理和鲁棒的说话人识别，着重介绍基于深度学习方法的说话人特征提取、说话人日程管理和鲁棒的说话人识别，以及领域适应和语音增强等方面的最新研究进展。

Dec, 2020

自动说话人识别中的偏差

本文通过 VoxCeleb 说话人识别挑战的案例，深入实证研究和分析机器学习的发展过程中的偏差问题，发现每个开发阶段都存在偏差，建议采取实践性措施和未来研究方向以缓解这一问题。

Jan, 2022