Rene: 用于呼吸疾病听诊的预训练多模态架构

May, 2024

Rene: 用于呼吸疾病听诊的预训练多模态架构

Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases

Pengfei Zhang, Zhihang Zheng, Shichen Zhang, Minghao Yang, Shaojun Tang

TL;DR利用预训练的语音识别模型处理呼吸音数据，通过引入医疗记录信息，提出了一种名为 Rene 的创新多模态深度学习架构，解决了以往呼吸疾病模型在实时临床诊断响应中存在的解释性和性能不足的挑战。在与基线相比的四项与呼吸事件检测和音频记录分类相关任务中，所提出的 Rene 架构分别取得了 10.24％，16.15％，15.29％和 18.90％的显著改进。在 ICBHI 数据库上进行的患者疾病预测测试中，该架构相对于基线在平均分数和谐波分数上分别提高了 23％。此外，我们基于 Rene 架构开发了实时呼吸音辨别系统，采用双线程设计和压缩模型参数用于同时麦克风录制和实时动态解码，利用最先进的边缘人工智能技术，该系统能够快速准确地响应呼吸音听诊，实现在可穿戴临床检测设备上的部署，以捕获增量数据，并能与在云服务器上部署的大规模模型协同发展用于下游任务。

Abstract

This study presents a novel methodology utilizing a pre-trained speech recognition model for processing respiratory sound data. By incorporating medical record information, we introduce an innovative multi-modal deep-learning architecture, named Rene, which addresses the challenges of

respiratory sound data multi-modal deep-learning architecture respiratory event detection audio record classification respiratory sound discrimination system

发现论文，激发创造

可穿戴设备中的呼吸音分类深度神经网络，通过患者特定模型调整实现

本文旨在通过建立分類模型和策略識别呼吸声異常的方法来自動辨别呼吸和肺部疾病，提出使用深度 CNN-RNN 模型基于 Mel-spectrograms 进行呼吸声分类，并采用局部日志量化策略来减少模型权重的内存占用，该模型在 ICBHI'17 科学挑战呼吸声数据库的呼吸周期四级分类上达到 66.31% 的分数，在使用患者特定数据重新训练模型后，还能以 71.81% 的成绩进行交叉验证，而局部日志量化训练后的权重则能够显著降低内存需求，这种类型的患者特定再培训策略在开发可靠的长期自动患者监测系统特别是在可穿戴式医疗解决方案中可能非常有用。

Apr, 2020

针对自开发开放式肺音数据库 HF_Lung_V1，对八种循环神经网络变体进行呼吸相和意外音检测效果基准测试

研究开发了一个肺音数据库，使用各种机器学习模型实现了呼吸相和异常肺音的检测，在多项定义任务中，双向门控循环单元模型展示了最佳的 F1 评分和接收器操作特性曲线下的面积。

Feb, 2021

基于先进信号处理与机器学习的音频呼吸疾病分类及辅助诊断支持

利用全球最大的公开医疗数据库中的呼吸声音，结合经验模式分解和谱分析等方法，训练多个机器学习模型对不同健康状况进行分类诊断，从而大大提高辅助和远程诊断能力。

Sep, 2023

使用基于 EMD-CWT 的混合图谱的轻量级 CNN 模型，用于从肺听诊声音中检测呼吸系统疾病

本文提出了一种基于混合 CWT 和 EMD 的频谱图特征的轻量级卷积神经网络（CNN）结构，以对肺音进行疾病分析分类，与传统 VGG16 模型相比，该 CNN 模型在三元慢性分类和六类病理分类方面分别提高了 0.52％和 1.77％的准确度，并且在时间和计算复杂度上有所改进。

Sep, 2020

肺音和肺病分类的多任务学习

使用多任务学习方法，在医学诊断中对肺音和肺疾病进行同时分类，结果表明该方法在同时分类肺音和肺疾病方面取得了良好的效果，并应用于慢阻肺患者的风险水平计算中，使用随机森林分类器达到了 92% 的准确率，从而减轻了医生的负担。

Apr, 2024

基于音频谱图变换的 Patch-Mix 对比学习在呼吸音分类中的应用

这项研究使用深度学习算法和新型增强技术，通过预处理于视听数据集上的模型实现了高效的呼吸声分类以及肺病诊断，取得了 ICBHI 数据集上 4.08% 的最高成绩。

May, 2023

开放性呼吸声基础模型：预训练和基准测试

我们介绍了 OPERA，这是第一个满足医疗应用需求的开放呼吸声基础模型预训练和基准系统，我们筛选了大规模的呼吸音频数据集，预训练了三个创新的基础模型，并构建了一个包含 19 个下游呼吸健康任务的基准，我们的预训练模型在 16 个任务中表现出优越性能，并且具有推广性，对于未见数据集和新的呼吸音频模态具有良好的泛化能力，这突显了呼吸声基础模型的巨大潜力，并鼓励更多使用 OPERA 进行呼吸音频研究加速的研究。

Jun, 2024

RepAugment：面向输入的表示层数据增强用于呼吸音分类

探索预训练语音模型在呼吸音分类中的有效性，并提出了能够处理预训练语音波形的输入不可知表示级别增广技术。实验结果表明，该方法优于 SpecAugment，在少数疾病类别的准确性上实现了显著改善，最高达到 7.14%。

May, 2024

巴西葡萄牙语中基于深度学习的呼吸不足检测中的判别音频特性

通过分析语音音频将言语作为呼吸功能不全（RI）的生物标志物来检测呼吸功能不全的人工智能系统研究。

May, 2024

BTS：基于元数据辅助的呼吸音分类的文本和声音模态的桥接

通过利用呼吸音样本的元数据，我们引入了一个文本 - 音频多模态模型来改进呼吸音分类的性能，并且在治疗临床环境中部分元数据不可用的情况下也进行了研究验证。

Jun, 2024