Jan, 2024

语音 Swin-Transformer: 探索一种具有平移窗口的分层 Transformer 用于语音情感识别

TL;DR该研究提出了一种基于分层性 Speech Swin-Transformer 的声音情感识别方法,通过分级的窗口聚合多尺度情感特征,将 Transformer 的感知范围从帧级扩展到片段级,实验结果表明该方法优于现有的技术。