多阶段 ASR 的部分重写
该研究提出了一种统一框架的双模 ASR(自动语音识别),通过权重共享和全场景 ASR 的联合训练,特别是在训练期间进行知识蒸馏,使流式 ASR 的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器 ASR 网络,并在 LibriSpeech 和 MultiDomain 数据集上进行了广泛实验和削减研究,取得了新的流式 ASR 结果。
Oct, 2020
本文提出了一种新型流式自动语音识别架构,可输出混淆网络并保持有限的延迟,以满足交互式应用的需要,其 1-best 结果与可比较的 RNN-T 系统相当,而更丰富的假设集允许进行第二遍重评分,以在 LibriSpeech 任务上实现 10-20%更低的字词误差率,同时在远场语音助手任务中优于强 RNN-T 基线。
Jun, 2023
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟为 1.3 秒,在多语言情况下优化了输出质量表现。
Jul, 2023
提出了一种流式的 “半自回归” ASR 模型,通过在上一个片段中引入先前块中发出的标签作为额外上下文,使用语言模型(LM)子网络,以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误,提高了语音处理的准确性和响应速度。
Sep, 2023
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
使用解码器专用架构进行分块流式自动语音识别,通过压缩 CTC 输出和上下文嵌入的语音特征,并将其作为提示逐块顺序提供给解码器,以快速估计输出令牌,同时采用随机长度前缀提示的新型训练方案,使模型能够应对分块处理引起的截断提示,并且在 LibriSpeech test-other 数据集上相对词错误率减少了 8%,速度是基线模型的两倍。
Jun, 2024
本文提出了一种自适应两阶段知识蒸馏方法,其中包括隐藏层学习和输出层学习,以缩小流式语音识别中流式和非流式转导模型的性能差距,并在 LibriSpeech 语料库中相比原始流式模型获得了 19% 的相对降低的词错误率和对第一个令牌的更快响应。
Jun, 2023