使用双向格子递归神经网络从 LVCSR 假设格中检测语音触发器
该研究研究了一种更直接的方法,即使用循环神经网络来替换隐马尔可夫模型,从而在字符级别直接执行序列预测,通过内置的注意力机制自动学习输入特征与期望字符序列之间的对齐。
Aug, 2015
我们提出了一种新方法,在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力,从而准确地递交准确的转录结果,涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模,通过使用基于 Transformer 的模型对单词格进行重新评分,实现了显著的性能提升和词错误率的明显降低,在 LibriSpeech 数据集上进行了实证分析,证明了我们提出的框架的有效性。
Oct, 2023
本文旨在将语言模型预训练方法推广到语音识别产生的 'lattice' 上。通过提出具有两阶段预训练的神经网络 lattice 语言模型,此研究在意图检测和对话行为识别数据集上证明了其在处理口语输入任务中的优势。
Jul, 2020
本文提出了一种基于 RNN 的字符级增量语音识别系统,使用 CTC 进行端到端训练,在短时间内响应语音输入,通过基于树的在线 Beam Search 算法实现字级别的识别,该系统不仅能够响应不断输入的语音,还能根据发音来发音对语音的字词进行识别。在训练数据集上,该模型将字错率降低至 8.90%。
Jan, 2016
本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法,并通过一种改进的前缀搜索解码算法,使得该方法完全不依赖于基于 HMM 的架构,实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中,取得了较为具有竞争力的错误率,并且证明了双向网络的重要性。
Aug, 2014
使用声学建模和语言建模等技术,结合三种模型得出了一个新的 LVCSR 系统, 结果在 Switchboard 上实现了前所未有的接近于完美的 6.6% 的错误率。
Apr, 2016
本文研究使用 VQ-LSTM 单元在预测网络中来改善 ASR 系统中 beam search 和 hypothesis merging 算法中的问题,实验结果支持这种 LSTM 单元与传统 LSTM 网络相比能够产生更好的 ASR 性能和效果。
Aug, 2022
本文基于神经网络,使用 FPGA 开发了一个实时语音识别系统,其中使用两个重复神经网络进行声学建模和语言建模,并采用统计单词级别语言模型提高识别准确性。同时,使用 N-best 搜索算法,实现了简单的 AM、character-level LM、word-level LM 三者的结合,从而显著提高其响应速度。
Sep, 2016
这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别(VSR)固定轨道的系统。具体来说,我们在模型中使用中间连接主义时间分类(Inter CTC)残差模块来放宽 CTC 的条件独立性假设,然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外,我们使用汉字作为建模单元来提高模型的识别准确性。最后,在推断阶段,我们使用了递归神经网络语言模型(RNNLM)进行浅层融合。实验表明,我们的系统在评估集上的字符错误率(CER)为 38.09%,相对于官方基准线减少了 21.63%,并在挑战赛中获得了第二名。
Dec, 2023
本文提出了一种改进的循环神经网络转录模型,通过集成一个帧级语言识别器预测器实现语言识别,以实现流式语音识别,通过流式实现统计汇聚,降低测试时成本,在语音搜索数据集上进行实验,平均命中率达到 96.2%。
Sep, 2022