Feb, 2023

语音处理低延迟 transformers

TL;DR本文介绍了新型神经网络的构建块 ——transformer,在音频数据应用中倾向于限制其在离线任务的应用。为此,我们提出了 Streaming Attention(SA)和 Low Latency Streaming Attention(LLSA)方法。对于自动语音识别(ASR)和语音情感识别(SER)任务的比较分析表明,这些方法可以与非因果(AA)网络表现相当,但具有实时流媒体应用的延迟特性和更低的计算和内存需求。