RepAugment：面向输入的表示层数据增强用于呼吸音分类

May, 2024

RepAugment：面向输入的表示层数据增强用于呼吸音分类

RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound Classification

June-Woo Kim, Miika Toikkanen, Sangmin Bae, Minseok Kim, Ho-Young Jung

TL;DR探索预训练语音模型在呼吸音分类中的有效性，并提出了能够处理预训练语音波形的输入不可知表示级别增广技术。实验结果表明，该方法优于 SpecAugment，在少数疾病类别的准确性上实现了显著改善，最高达到 7.14%。

Abstract

Recent advancements in ai have democratized its deployment as a healthcare assistant. While pretrained models from large-scale visual and audio datasets have demonstrably generalized to this task, surprisingly, no studies have explored →

ai healthcare assistant pretrained speech models respiratory sound classification data augmentation

发现论文，激发创造

SpecAugment：一种简单的自动语音识别数据增强方法

通过在神经网络的特征输入（即滤波器组系数）中直接应用声音数据扩充方法 SpecAugment - 扭曲特征，掩盖一定数量的频道块以及时间步长，我们在端到端的语音识别任务上实现了最先进的性能，超过了所有以前的工作。

Apr, 2019

大规模数据集上的 SpecAugment

本文介绍了一种基于 SpecAugment 的自适应掩蔽方法，该方法可以直接作用于语音识别中输入语音信号的高频图谱上，并证明了该方法在大规模数据集上的有效性，通过将增强数据与噪声扰动训练的数据混合使用，使得模型在所有测试领域中都取得了进一步的提升。

Dec, 2019

基于音频谱图变换的 Patch-Mix 对比学习在呼吸音分类中的应用

这项研究使用深度学习算法和新型增强技术，通过预处理于视听数据集上的模型实现了高效的呼吸声分类以及肺病诊断，取得了 ICBHI 数据集上 4.08% 的最高成绩。

May, 2023

使用 SpecAugment 进行端到端语音翻译

本研究探讨了一种简单的数据增强技术 SpecAugment，用于端到端的语音翻译，通过遮蔽频道块和 / 或时间步骤，减轻过拟合，对 LibriSpeech Audiobooks En->Fr 数据集 BLEU 提高了 2.2％，对 IWSLT TED-talks En-> 通用德语数据集提高了 1.2％，并证明这一方法在各种数据条件下都能带来显著的改进。

Nov, 2019

使用 S3PRL 工具包进行语音数据增强方法比较

本文使用 S3PRL toolkit 比较不同的数据增强策略，包括 SpecAugment，Gaussian Noise 和 Speed Perturbation，探讨了 HuBERT 和 wav2vec 在 Phoneme Recognition 和 Automatic Speech Recognition 任务中的表现，结果表明使用数据增强可以提高模型的鲁棒性。

Feb, 2023

减少、重用、循环利用：扰动数据是否比其他语言增强对于低资源自我监督语音模型更好

利用音频增强方法预训练自监督表示学习（SSRL）模型，相比监督模型，在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术，包括音高变化、噪音添加、目标语言口音和其他语言语音，并发现了综合增强（噪音 / 音高）是最佳的增强策略，超过了口音和语言知识迁移。研究结果表明，在资源有限的语言中，领域内的合成增强可以优于口音或其他语言的知识迁移。

Sep, 2023

FilterAugment: 一种声学环境数据增强方法

提出了一种名为 FilterAugment 的数据增强方法，用于在不同声学环境下正则化音频模型。通过在频率带上应用不同的权重，这种方法可以模拟声学滤波器，从而使模型能够从更广泛的频率区域提取相关信息。实验证明，与频率屏蔽相比，FilterAugment 在声音事件检测性能方面的提升为 6.50％，在说话人验证方面取得了 1.22％的等误率。

Oct, 2021

数据增强在时域中对比学习语音表示

本文提出数据增强方法 WavAugment，对于改进基于 Contrastive Predictive Coding 算法的语音信号表示学习具有显著的增强效果，其中使用的时间域数据增强方法包括音高调整，加性噪声和混响。此外，时间域数据增强还在有限监督语音音素分类任务中得到了验证。

Jul, 2020

MixSpeech: 低资源语音识别数据增强

本文提出了 MixSpeech，一种基于混合学习的自动语音识别数据增强方法，通过该方法可以有效地提高模型性能，实验结果表明该方法优于基准模型和其他流行的数据增强方法。

Feb, 2021

Rene: 用于呼吸疾病听诊的预训练多模态架构

利用预训练的语音识别模型处理呼吸音数据，通过引入医疗记录信息，提出了一种名为 Rene 的创新多模态深度学习架构，解决了以往呼吸疾病模型在实时临床诊断响应中存在的解释性和性能不足的挑战。在与基线相比的四项与呼吸事件检测和音频记录分类相关任务中，所提出的 Rene 架构分别取得了 10.24％，16.15％，15.29％和 18.90％的显著改进。在 ICBHI 数据库上进行的患者疾病预测测试中，该架构相对于基线在平均分数和谐波分数上分别提高了 23％。此外，我们基于 Rene 架构开发了实时呼吸音辨别系统，采用双线程设计和压缩模型参数用于同时麦克风录制和实时动态解码，利用最先进的边缘人工智能技术，该系统能够快速准确地响应呼吸音听诊，实现在可穿戴临床检测设备上的部署，以捕获增量数据，并能与在云服务器上部署的大规模模型协同发展用于下游任务。

May, 2024