Nov, 2022

基于因式分解神经传输器的长篇语音识别

TL;DR提出一种名为 LongFNT 的架构,通过融合句子级别和标记级别的长时序特征和预训练的 RoBERTa 上下文编码器,扩展了长段音频输入的自动语音识别模型,显著降低了字错率。