Nov, 2023
多视角声谱图变换器用于呼吸音分类
Multi-View Spectrogram Transformer for Respiratory Sound Classification
Wentao He, Yuchen Yan, Jianfeng Ren, Ruibin Bai, Xudong Jiang
TL;DR提出了一种 Multi-View Spectrogram Transformer (MVST) 模型,将深度神经网络应用于呼吸音频谱图的分类,通过将 mel-spectrogram 分为不同大小的 patches,使用 transformer encoders 提取 patches 之间的注意力信息,并设计了一种门控融合机制来加强多视图特征,在呼吸音分类任务上明显优于现有最先进方法。