streaming speech recognition | BriefGPT

关键词streaming speech recognition

搜索结果 - 4

Simul-Whisper：带有截断检测的注意力引导流式 Whisper
Simul-Whisper is a streaming speech recognition model that utilizes time alignment embedded in Whisper's cross-attention
PDF22 days ago
基于缓存推断的流式自动语音识别中的有状态快速 Conformer
我们提出了一种基于 FastConformer 架构的高效准确的流式语音识别模型，在编码器中通过约束前向和后向上下文，并引入了激活缓存机制来实现非自回归编码器在推断过程中的自回归操作。我们的模型消除了许多流式模型中常见的训练与推断准确性差异
PDF6 months ago
模块化框架下的流式语音识别全局标准化
介绍了全局归一化自回归转换器 (GNAT) 解决了流式语音识别中的标签偏见问题。我们的解决方案采用可计算的分母来实现序列级别归一化。通过理论和实证结果，我们展示了通过切换到全局归一化模型，可以极大地减少流式和非流式语音识别模型之间的词误差率
PDF2 years ago
CUSIDE：基于分块、模拟未来上下文和解码的流式 ASR
本文提出了一种新的框架（Chunking、模拟未来内容和解码，CUSIDE）用于流式语音识别，引入了模拟模块来递归模拟未来上下文帧，通过自监督损失与 ASR 模型联合训练，证明在维持识别准确度的同时大幅降低延迟，并在 AISHELL-1 数
PDF2 years ago