WavRx：一种疾病不可知、通用和隐私保护的语音健康诊断模型

Jun, 2024

WavRx：一种疾病不可知、通用和隐私保护的语音健康诊断模型

WavRx: a Disease-Agnostic, Generalizable, and Privacy-Preserving Speech Health Diagnostic Model

Yi Zhu, Tiago Falk

TL;DR提出了一种能够捕捉通用语音表示中呼吸与表达动态的语音健康诊断模型 WavRx，该模型在六个病理语音数据集上的领域内和领域间实验表明 WavRx 是一种新的最先进的健康诊断模型，并且在没有额外指导的情况下，WavRx 健康嵌入中包含的说话者身份信息得到显著降低，同时通过对模型的深入分析提供了其改进的泛化能力和隐私保护能力的生理解释。

Abstract

speech is known to carry health-related attributes, which has emerged as a novel venue for remote and long-term health monitoring. However, existing models are usually tailored for a specific type of disease, and

speech health monitoring generalizability speaker identity health diagnostic model

发现论文，激发创造

HeAR - 健康声学表示

发展了一个基于自监督学习的深度学习系统，通过线性探测在 33 个健康声学任务上建立了一个先进的健康音频嵌入模型。

Mar, 2024

语音障碍分析：基于 Transformer 的方法

声音障碍是显著影响患者生活质量的病理状态。然而，由于病理性声音数据短缺以及用于诊断的录音类型的多样性，对这些病理状态的非侵入性自动诊断仍未得到充分探索。本文提出了一种新颖的解决方案，直接采用在原始声音信号上工作的变压器，并通过合成数据生成和数据增强来解决数据短缺的问题。此外，我们同时考虑了多种录音类型，如句子朗读和持续元音发音，通过采用多模态专家集合来对不同数据类型上的预测进行对齐。在公共和私有数据集上获得的实验结果显示了我们解决方案在障碍检测和分类任务中的有效性，并在现有方法上有了很大的改进。

Jun, 2024

语音电子健康记录：引入多模态音频数据

通过使用移动 / 网络应用程序进行指导性问题，捕捉健康数据并形成音频电子健康记录（Voice EHR），可以利用大型 AI 模型对患者进行快速分类，提升医疗决策，并通过早期检测潜在地改善结果。该报告引入了全球工作的合作伙伴群体、数据收集所使用的应用程序，并展示了信息丰富的声音电子健康记录（Voice EHR）通过弥补单模临床数据集的典型限制，从常规语音 / 呼吸特征、语音模式和具有语义含义的语言中获得的复杂生物标识可能带来的潜在可扩展性和多样性。

Apr, 2024

跨语言自监督语音表征，提高口吃症患者的语音识别能力

使用预训练 Wav2Vec、Hubert 和 XLSR 模型的声学特征训练自动语音识别系统，对患有言语障碍的英语、西班牙语和意大利语使用者进行识别，结果表明相较于 Fbank 特征，使用 XLSR 特征可将识别错误率分别降低 6.8%、22.0% 和 7.0%。

Apr, 2022

基于先进信号处理与机器学习的音频呼吸疾病分类及辅助诊断支持

利用全球最大的公开医疗数据库中的呼吸声音，结合经验模式分解和谱分析等方法，训练多个机器学习模型对不同健康状况进行分类诊断，从而大大提高辅助和远程诊断能力。

Sep, 2023

细致的耳语：利用自动语音识别的进展进行稳健和可解释的失语症亚型分类

该研究提出了一种全自动的方法来识别语音记录中的语音异常，以帮助评估语音障碍。结合连续时间分类（CTC）和基于编码器 - 解码器的自动语音识别模型，生成丰富的声学和干净的转录本。然后，应用几种自然语言处理方法从这些转录本中提取特征，以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征，可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外，可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言，并显示出从语音诊断标志提取的强大前景。

Aug, 2023

走向客观和可解释的语音障碍评估：基于 CNN 和 Transformer 的模型的比较分析

这项研究提出了一种基于自我监督的 Wav2Vec2 模型，用于头颈癌患者的语音分类，以提高准确性和语音特征辨别能力，并通过评估多样化语料库的方式验证了该模型的有效性，为医生提供了可解释的方法来理解病理性语音。

Jun, 2024

基于 Wav2vec 的言语智能识别与严重程度分类 —— 以口吃为例

通过使用预训练的 wav2vec 2.0 模型作为特征提取器，本研究对发音困难症的声学语音信号进行了自动检测和严重程度分类，结果表明使用 wav2vec 模型的第一层嵌入特征在准确度上相较于基线特征（声谱图）提升了 1.23%，在严重程度分类任务中最终层的嵌入特征相较于基线特征（梅尔频率倒谱系数）提升了 10.62%。

Sep, 2023

Rene: 用于呼吸疾病听诊的预训练多模态架构

利用预训练的语音识别模型处理呼吸音数据，通过引入医疗记录信息，提出了一种名为 Rene 的创新多模态深度学习架构，解决了以往呼吸疾病模型在实时临床诊断响应中存在的解释性和性能不足的挑战。在与基线相比的四项与呼吸事件检测和音频记录分类相关任务中，所提出的 Rene 架构分别取得了 10.24％，16.15％，15.29％和 18.90％的显著改进。在 ICBHI 数据库上进行的患者疾病预测测试中，该架构相对于基线在平均分数和谐波分数上分别提高了 23％。此外，我们基于 Rene 架构开发了实时呼吸音辨别系统，采用双线程设计和压缩模型参数用于同时麦克风录制和实时动态解码，利用最先进的边缘人工智能技术，该系统能够快速准确地响应呼吸音听诊，实现在可穿戴临床检测设备上的部署，以捕获增量数据，并能与在云服务器上部署的大规模模型协同发展用于下游任务。

May, 2024

在数据稀缺环境中利用 ASR 驱动的 Wav2Vec2 探索病态语音质量评估

自动语音质量评估中，由于数据稀缺，大多数研究仅在二元分类等简单任务上取得良好结果。本文提出了一种新的方法，通过采用预训练的 Wav2Vec2 架构作为语音评估中的特征提取器，将学习系统从片段级别提升至音频级别，从而建立了一个新的基准，使得只使用 95 个训练样本可以实现对可懂度和严重程度得分的预测，平均均方误差分别为 0.73 和 1.15。结果表明，基于 ASR 的 Wav2Vec2 模型带来了最佳结果，并且可能暗示了 ASR 与语音质量评估之间的强相关性。同时，我们还评估了该方法在变长片段持续时间和语音内容等因素上的影响。

Mar, 2024