多视角声谱图变换器用于呼吸音分类

Nov, 2023

多视角声谱图变换器用于呼吸音分类

Multi-View Spectrogram Transformer for Respiratory Sound Classification

Wentao He, Yuchen Yan, Jianfeng Ren, Ruibin Bai, Xudong Jiang

TL;DR提出了一种 Multi-View Spectrogram Transformer (MVST) 模型，将深度神经网络应用于呼吸音频谱图的分类，通过将 mel-spectrogram 分为不同大小的 patches，使用 transformer encoders 提取 patches 之间的注意力信息，并设计了一种门控融合机制来加强多视图特征，在呼吸音分类任务上明显优于现有最先进方法。

Abstract

deep neural networks have been applied to audio spectrograms for respiratory sound classification. Existing models often treat the spectrogram as a synthetic image while overlooking its physical characteristics.

deep neural networks audio spectrograms respiratory sound classification multi-view spectrogram transformer (mvst)transformer encoders

发现论文，激发创造

基于音频谱图变换的 Patch-Mix 对比学习在呼吸音分类中的应用

这项研究使用深度学习算法和新型增强技术，通过预处理于视听数据集上的模型实现了高效的呼吸声分类以及肺病诊断，取得了 ICBHI 数据集上 4.08% 的最高成绩。

May, 2023

利用音频频谱图视觉转换器进行异常呼吸声识别

开发了一种名为音频 - 谱图视觉变换器的新方法，将肺部声音转化为称为谱图的可视化表示，通过使用视觉变换器模型对这些图像进行分析以识别不同类型的呼吸声，使用含有各种频率、噪声水平和背景的肺部声音的 ICBHI 2017 数据库对提出的音频 - 谱图视觉变换器方法进行了评估，并在呼吸道声音检测方面取得了 79.1% 和 59.8%（60:40 分割比）以及 86.4% 和 69.3%（80:20 分割比）的未加权平均召回率和总体分数，超过以往最先进的结果。

May, 2024

具有 Transformer 的多视角立体

本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Dec, 2021

从像素到预测：频谱图和视觉变换器用于更好的时间序列预测

通过使用时间频谱图作为时间序列数据的可视表示，使用视觉变换器进行多模态学习的一种新方法，与统计基线、深度学习方法、其他视觉表示方法和只使用时间序列作为输入的研究进行对比，表明利用频谱图作为时间序列数据的可视表示具有优势，并且同时学习时间和频率域的优势。

Mar, 2024

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

SleepVST: 使用预训练转换器从近红外视频信号进行睡眠分期

通过相机采集的生理监测进展，我们可以非接触性地测量呼吸和心脏脉搏，而这些指标可以反映出睡眠阶段的信息。因此，我们提出了 SleepVST，一种基于 Transformer 模型的睡眠分期分类方法，通过预训练和应用于视频数据，SleepVST 在睡眠分期中取得了领先的表现。

Apr, 2024

多层次时间序列变换器用于长期预测

提出了一种多分辨率时间序列变压器（MTST）框架，采用了多支架构来同时建模不同分辨率的多样化时间模式，通过相对位置编码提取不同尺度上的周期成分，与现有的时间序列变压器相比，在几个真实世界数据集上进行了广泛实验，证明了 MTST 在与最先进的预测技术的比较中的有效性。

Nov, 2023

多尺度音频光谱变换器用于有效的音频分类

这篇研究提出了一种名为多尺度音频谱变换器（MAST）的方法，它采用分层表示学习来提高音频分类的效率，相较于 AST，MAST 在没有外部训练数据的情况下，在 Kinetics-Sounds，Epic-Kitchens-100 和 VGGSound 数据集上的准确度提高了 22.2％、4.4％和 4.7％，同时比 AST 更加高效。

Mar, 2023

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

多视点 Swin Transformer 的乳房 X 光分类

本文提出了一种创新的基于 Transformer 的多视图网络，用于解决乳房 X 线照片分类中的挑战。我们的方法通过引入一种新颖的基于移动窗口的动态注意力块，促进多视图信息的有效集成，并在空间特征映射级别上促进该信息在视图之间的一致传递。此外，我们使用 CBIS-DDSM 和 Vin-Dr Mammo 数据集对基于 Transformer 的模型在不同设置下的性能和有效性进行了全面的比较分析。我们的代码公开可用于此 https URL。

Feb, 2024