转录器快速并行解码
该研究提出了在流式自动语音识别中应用串联有因果和非因果编码器的方法,并使用两个有不同输入上下文大小和以不同的音频间隔产生输出的流式非因果编码器进行改进;同时提出了一种新的并行时间同步波束搜索算法。研究结果表明,在公共数据集 Librispeech 和内部数据集上,该算法在稍微增加音节延迟的情况下,实现 WER 降低 20%左右,并探索了分布式处理和共享参数降低内存占用的技术,以实现低计算成本和低内存占用的边缘设备上的低延迟处理。
Mar, 2022
本研究设计了 Conv-Transformer Transducer 架构,在 LibriSpeech 数据集上实现了较强的流式语音识别性能,该架构适用于流式 ASR,且相较于以前发布的 Transformer Transducer 和强混合流式 ASR 系统,拥有更小的前向窗口、更少的参数和更低的帧率。
Aug, 2020
通过引入支持当前 CTC 模型的 GPU 加速加权有限状态转录器(WFST)波束搜索解码器,我们提供了一种 GPU 加速的波束搜索解码器,可以提高管道吞吐量,减少延迟,并支持流式推理,同时支持实时组合进行话语特定的单词增强。我们针对离线和在线场景评估了我们的解码器,证明它是 CTC 模型的最快波束搜索解码器。在离线场景中,它的吞吐量比当前最先进的 CPU 解码器高出多达 7 倍,在在线流式场景中,它的延迟几乎比之前更低,而且单词错误率相同或更好。
Nov, 2023
通过 GPU 实现 Viterbi 算法和前向 - 后向算法对加权有限状态自动机进行加速,取得了至多 5.2 倍于串行实现输出速度,并对 OpenFST 实现达到 6093 倍的加速效果。
Jan, 2017
研究了神经转录器的训练过程中内存需求高的问题,提出了一种基于样本的方法来减少内存使用和提高训练效率。在一系列基准测试中表明,比默认批处理计算更具有竞争力,可以在 1024 批处理计算下,仅使用 6GB 的内存来计算 40 秒音频的转录器损失和梯度。
Nov, 2022
本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构,以解决 transformers 对机器翻译的效率问题,实现了速度提高,而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试,速度提升最多可达 38%,在并行资源上实现的速度几乎达到 2 倍。同时,为了更好地理解模型的条件依赖关系和检查解码过程,提出了解码依赖图可视化器(DDGviz)
May, 2023
基于神经传导器的文本到语音 (TTS) 框架,通过使用从 wav2vec2.0 嵌入中获得的离散语义标记,易于采用神经传导器实现 TTS 框架,从而享受其单调对齐约束;该模型首先通过神经传导器生成对齐的语义标记,然后使用非自回归 (NAR) 语音生成器从语义标记合成语音样本,该分离框架减轻了 TTS 的训练复杂性,使得每个阶段能够分别专注于语言和对齐建模以及细粒度声学建模;在零样本自适应 TTS 上的实验结果表明,通过客观和主观指标,该模型在语音质量和说话人相似度方面超过了基准模型;我们还研究了我们提出的模型的推断速度和语调可控性,展示了神经传导器在 TTS 框架中的潜力。
Nov, 2023
提出一种惩罚转导模型符号延迟的简单方法,来平衡无外部对齐的在线模型特征提取和识别精度之间的权衡,该方法对流式 Conformer 模型和单向 LSTM 模型都可以有效降低符号延迟并且保持可以接受的性能下降。
Oct, 2022
介绍了因文本数据处理能力有限而提出的 FNT 模型及其在语音识别领域中的存在意义,并提出了多种方法来优化模型性能,使用这些方法后,相比于标准 FNT 模型,模型的错误率下降了 9.48%。
Dec, 2022
本文提出一个高效的 3 阶段渐进训练管道,能够快速利用有限的计算资源训练出接近最新成果性能的转录模型,证明了每个阶段的有效性,并在 Librispeech 和 Switchboard 训练语料库上进行了实验证明。
Apr, 2022