全神经语音识别的进展
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了 5-10% 的误差,并且我们的端到端模型击败了传统的混合式 ASR 系统。
Jun, 2017
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统,通过优化核心架构,高效的波束搜索解码器以及提升性能指标的分析,系统吞吐量提高 3 倍,延迟降低同时保持更好的词语误差率。
Jan, 2020
本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC,其通过残差连接和时间分类损失函数,能够同时利用语音信号的时间和光谱结构,并提出了一种 CTC-based 系统组合方法,可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。
Feb, 2017
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基线相比,在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6%的相对 CER 改进。
Sep, 2016
本文提出了一种基于 RNN 的字符级增量语音识别系统,使用 CTC 进行端到端训练,在短时间内响应语音输入,通过基于树的在线 Beam Search 算法实现字级别的识别,该系统不仅能够响应不断输入的语音,还能根据发音来发音对语音的字词进行识别。在训练数据集上,该模型将字错率降低至 8.90%。
Jan, 2016
该论文研究了通过使用其他语言的数据和建立多语言系统来处理自动语音识别中数据稀缺性的问题,使用循环神经网络和连接时序分类等技术进行训练,提高了多语言系统的性能,缩小了单语和多语系统之间的差距。
Nov, 2017
使用 CTC 损失和双向 LSTM RNN 网络,基于整词的声学单位构建连续语音识别系统,无需传统上下文依赖的子词单元和语言模型。
Oct, 2016
本文提出了 BERT-CTC,一种新的端到端语音识别形式,采用 BERT 来适应连接时间分类(CTC),通过自注意机制,BERT-CTC 关注输入和输出序列的完整上下文,并在保持 CTC 训练效率的同时学习音频和标记表示之间的内部 / 交叉依赖关系,并通过 CTC 解码将 mask-predict 算法与 CTC 解码相结合以迭代地细化输出序列。实验结果表明 BERT-CTC 在说话风格和语言变化的情况下都优于传统方法,并且 BERT-CTC 中的语义表示对下游口语理解任务有益。
Oct, 2022