BTS：基于元数据辅助的呼吸音分类的文本和声音模态的桥接

Jun, 2024

BTS：基于元数据辅助的呼吸音分类的文本和声音模态的桥接

BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification

June-Woo Kim, Miika Toikkanen, Yera Choi, Seoung-Eun Moon, Ho-Young Jung

TL;DR通过利用呼吸音样本的元数据，我们引入了一个文本 - 音频多模态模型来改进呼吸音分类的性能，并且在治疗临床环境中部分元数据不可用的情况下也进行了研究验证。

Abstract

respiratory sound classification (RSC) is challenging due to varied acoustic signatures, primarily influenced by patient demographics and recording environments. To address this issue, we introduce a text-audio multimod

respiratory sound classification multimodal model metadata icbhi dataset clinical setting

发现论文，激发创造

基于先进信号处理与机器学习的音频呼吸疾病分类及辅助诊断支持

利用全球最大的公开医疗数据库中的呼吸声音，结合经验模式分解和谱分析等方法，训练多个机器学习模型对不同健康状况进行分类诊断，从而大大提高辅助和远程诊断能力。

Sep, 2023

基于音频谱图变换的 Patch-Mix 对比学习在呼吸音分类中的应用

这项研究使用深度学习算法和新型增强技术，通过预处理于视听数据集上的模型实现了高效的呼吸声分类以及肺病诊断，取得了 ICBHI 数据集上 4.08% 的最高成绩。

May, 2023

基于听诊器引导的监督对比学习在呼吸音分类的跨领域适应中的应用

通过跨领域适应技术，结合监督对比学习方法，本研究在呼吸音分类领域取得了显著进展，成功减少了不同电子听诊器录制的呼吸音之间的领域依赖并实现了 61.71% 的 ICBHI 得分，相较于基线模型的 2.16% 有了显著提升。

Dec, 2023

Rene: 用于呼吸疾病听诊的预训练多模态架构

利用预训练的语音识别模型处理呼吸音数据，通过引入医疗记录信息，提出了一种名为 Rene 的创新多模态深度学习架构，解决了以往呼吸疾病模型在实时临床诊断响应中存在的解释性和性能不足的挑战。在与基线相比的四项与呼吸事件检测和音频记录分类相关任务中，所提出的 Rene 架构分别取得了 10.24％，16.15％，15.29％和 18.90％的显著改进。在 ICBHI 数据库上进行的患者疾病预测测试中，该架构相对于基线在平均分数和谐波分数上分别提高了 23％。此外，我们基于 Rene 架构开发了实时呼吸音辨别系统，采用双线程设计和压缩模型参数用于同时麦克风录制和实时动态解码，利用最先进的边缘人工智能技术，该系统能够快速准确地响应呼吸音听诊，实现在可穿戴临床检测设备上的部署，以捕获增量数据，并能与在云服务器上部署的大规模模型协同发展用于下游任务。

May, 2024

可穿戴设备中的呼吸音分类深度神经网络，通过患者特定模型调整实现

本文旨在通过建立分類模型和策略識别呼吸声異常的方法来自動辨别呼吸和肺部疾病，提出使用深度 CNN-RNN 模型基于 Mel-spectrograms 进行呼吸声分类，并采用局部日志量化策略来减少模型权重的内存占用，该模型在 ICBHI'17 科学挑战呼吸声数据库的呼吸周期四级分类上达到 66.31% 的分数，在使用患者特定数据重新训练模型后，还能以 71.81% 的成绩进行交叉验证，而局部日志量化训练后的权重则能够显著降低内存需求，这种类型的患者特定再培训策略在开发可靠的长期自动患者监测系统特别是在可穿戴式医疗解决方案中可能非常有用。

Apr, 2020

肺音和肺病分类的多任务学习

使用多任务学习方法，在医学诊断中对肺音和肺疾病进行同时分类，结果表明该方法在同时分类肺音和肺疾病方面取得了良好的效果，并应用于慢阻肺患者的风险水平计算中，使用随机森林分类器达到了 92% 的准确率，从而减轻了医生的负担。

Apr, 2024

使用基于 EMD-CWT 的混合图谱的轻量级 CNN 模型，用于从肺听诊声音中检测呼吸系统疾病

本文提出了一种基于混合 CWT 和 EMD 的频谱图特征的轻量级卷积神经网络（CNN）结构，以对肺音进行疾病分析分类，与传统 VGG16 模型相比，该 CNN 模型在三元慢性分类和六类病理分类方面分别提高了 0.52％和 1.77％的准确度，并且在时间和计算复杂度上有所改进。

Sep, 2020

RepAugment：面向输入的表示层数据增强用于呼吸音分类

探索预训练语音模型在呼吸音分类中的有效性，并提出了能够处理预训练语音波形的输入不可知表示级别增广技术。实验结果表明，该方法优于 SpecAugment，在少数疾病类别的准确性上实现了显著改善，最高达到 7.14%。

May, 2024

利用音频频谱图视觉转换器进行异常呼吸声识别

开发了一种名为音频 - 谱图视觉变换器的新方法，将肺部声音转化为称为谱图的可视化表示，通过使用视觉变换器模型对这些图像进行分析以识别不同类型的呼吸声，使用含有各种频率、噪声水平和背景的肺部声音的 ICBHI 2017 数据库对提出的音频 - 谱图视觉变换器方法进行了评估，并在呼吸道声音检测方面取得了 79.1% 和 59.8%（60:40 分割比）以及 86.4% 和 69.3%（80:20 分割比）的未加权平均召回率和总体分数，超过以往最先进的结果。

May, 2024

多视角声谱图变换器用于呼吸音分类

提出了一种 Multi-View Spectrogram Transformer (MVST) 模型，将深度神经网络应用于呼吸音频谱图的分类，通过将 mel-spectrogram 分为不同大小的 patches，使用 transformer encoders 提取 patches 之间的注意力信息，并设计了一种门控融合机制来加强多视图特征，在呼吸音分类任务上明显优于现有最先进方法。

Nov, 2023