双模 ASR: 统一与改进全上下文流式 ASR 模型
该研究旨在通过 Omni-sparsity supernet 方法联合训练一个紧凑稀疏的流式 ASR 模型和一个大型密集的非流式服务器模型,进而提高现有 ASR 模型的性能。
Jul, 2022
通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。
Oct, 2023
本文通过使用多解码器和知识蒸馏来实现流式和非流式自动语音识别(ASR)的联合优化,主要研究了 ASR 模块的编码器整合、分离解码器以实现灵活切换模式,以及通过两个模块化编码器和解码器之间的相似性保持知识蒸馏来提高性能。评估结果显示,在单一模型中与多个独立模块相比,流式 ASR 的字符错误率相对减少了 2.6%-5.3%,非流式 ASR 的字符错误率相对减少了 8.3%-9.7%。
May, 2024
本文提出了一种新型流式自动语音识别架构,可输出混淆网络并保持有限的延迟,以满足交互式应用的需要,其 1-best 结果与可比较的 RNN-T 系统相当,而更丰富的假设集允许进行第二遍重评分,以在 LibriSpeech 任务上实现 10-20%更低的字词误差率,同时在远场语音助手任务中优于强 RNN-T 基线。
Jun, 2023
本文提出一种创新的方法,将不同领域和不同设备的模型整合成一个统一的模型,使用领域嵌入、领域专家、专家混合和对抗性训练来提高整体统一模型的准确性,并通过仔细的消融研究表明每个创新的好处,实验证明我们提出的统一建模方法实际上优于精心调整的专业领域模型。
May, 2022
本文提出了一种新颖的两步方法,用于将流式和非流式端到端(E2E)语音识别统一到单个模型中,该模型采用混合 CTC /attention 架构,在编码器的 conformer 层进行修改,并且在推理时,CTC 解码器以流式方式生成 n 个最佳假设,然后通过注意力解码器进行重评分以得到最终结果,并且在 AISHELL-1 测试集上,基于提出的方法的统一模型相对于标准的非流式 transformer,实现了 5.60%的相对字符错误率(CER)降低,在流式 ASR 系统中实现了 640ms 的延迟。
Dec, 2020
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020
提出了一种流式的 “半自回归” ASR 模型,通过在上一个片段中引入先前块中发出的标签作为额外上下文,使用语言模型(LM)子网络,以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误,提高了语音处理的准确性和响应速度。
Sep, 2023