为实时语音搜索构建准确低延迟 ASR
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了 5-10% 的误差,并且我们的端到端模型击败了传统的混合式 ASR 系统。
Jun, 2017
本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段,将 Listen Attend Spell(LAS)模型应用于语音搜索任务中,从而将错误率从 9.2% 显著降至 5.6%。在听写任务中,该模型的错误率为 4.1%,略优于传统系统的 5.0%。
Dec, 2017
本文提出了一种新型流式自动语音识别架构,可输出混淆网络并保持有限的延迟,以满足交互式应用的需要,其 1-best 结果与可比较的 RNN-T 系统相当,而更丰富的假设集允许进行第二遍重评分,以在 LibriSpeech 任务上实现 10-20%更低的字词误差率,同时在远场语音助手任务中优于强 RNN-T 基线。
Jun, 2023
本文提出了一种支持流式多语言的端到端自动语音识别的模型,通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer,以及使用了更高效的 Embedding 解码器,实现了低延迟和高质量的效果,可以在移动设备上实时运行。
Aug, 2022
本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用,使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求,结果表明变压器模型具有可接受的词错误率和最低延迟要求,在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16%左右,此外,观察到在第二次得分模式下,所有编码器提供的好处相似,而性能的差异则在独立文本生成模式下更为突出。
Jun, 2022
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
使用 CTC 损失和双向 LSTM RNN 网络,基于整词的声学单位构建连续语音识别系统,无需传统上下文依赖的子词单元和语言模型。
Oct, 2016
本文介绍了一种端到端的深度学习模型,用于将尼泊尔语音转录为文本的自动语音识别(ASR)。该模型在 OpenSLR(音频、文本)数据集上进行了训练和测试,使用了 MFCC 作为音频特征,采用了双向 LSTM 与 ResNet 和一维 CNN 相结合的模型,在所有经过训练的模型中取得了最好的结果。预测尼泊尔文本的最可能顺序使用了 CTC 算法进行训练和 CTC 束搜索解码。在测试数据集上,字符错误率(CER)达到了 17.06%。
Jun, 2024
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020