Nov, 2023

多视角声谱图变换器用于呼吸音分类

TL;DR提出了一种 Multi-View Spectrogram Transformer (MVST) 模型,将深度神经网络应用于呼吸音频谱图的分类,通过将 mel-spectrogram 分为不同大小的 patches,使用 transformer encoders 提取 patches 之间的注意力信息,并设计了一种门控融合机制来加强多视图特征,在呼吸音分类任务上明显优于现有最先进方法。