鲁棒音频异常检测
本文提出了一种基于BLSTM循环神经网络的多音事件检测方法,该方法通过训练一个多标签BLSTM RNN,将包括音乐、车辆、讲话等61类在内的多种声音的声学特征映射到每个事件类别的二进制活动指示符上,并且通过使用数据增强技术进一步提高了识别结果的准确性,系统在实测中平均F1分数分别为65.5%和64.7%。
Apr, 2016
本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测,通过初始阶段从每个通道中单独学习这些多通道特征,扩展了卷积递归神经网络以处理更多类型的这些特征,并表明将特征呈现为体积的单独层,而不是将每个通道的特征串联成单个特征向量,可以更好地学习多通道音频中的声音事件。与单声道特征相比,在相同网络上使用所提出的空间特征,在公开可用的TUT-SED 2016数据集上的F-score提高了6.1%,在TUT-SED 2009数据集上的F-score提高了2.7%,该数据集是其15倍大。
Jun, 2017
该论文提出了一种名为“MSCRED”的多尺度卷积循环编码器-解码器模型,用于在多元时间序列数据中执行异常检测和诊断,并且在合成数据集和实际电厂数据集上进行了广泛的实证研究,证明MSCRED可以优于现有的基线方法。
Nov, 2018
本文研究基于深度神经网络的音频处理模型容易受到对抗攻击的问题,提出了在激活空间中应用异常模式检测技术来检测对抗性样本,并可以在不降低对良性样本性能的情况下检测出两种最新的对抗攻击,AUC最高可达0.98。
Feb, 2020
使用自动编码器从原始心跳音频中提取特征,探究在医疗保健中的异常检测应用。通过1D非因果卷积编码器和WaveNet解码器组成的自编码器进行特征学习,采用基于变分推理的修改目标及最大平均偏差(MMD)。此外,使用高斯链图模型对潜在分布进行建模以捕捉编码信号的时间相关性。在无监督方式下对自动编码器进行重新构建任务的训练后,通过训练SVM来预测异常,并在PASCAL分类心脏声音挑战提出的问题上进行评估,与文献中的结果进行比较。
Feb, 2021
提出一种基于重构的异常检测方法 MissGAN,通过迭代学习将自然而平滑的时间序列重视切分为较粗的片段,并在低维度表示基础上发现更细的段落,从而学习多尺度段落,并通过对抗规则和额外条件状态重构一个有意义且稳健的时间序列,不需要标签或仅需要正常实例的标签,适用范围广泛。
Apr, 2022
本文提出了一种新的损失因果时间卷积神经网络自编码器来进行异常检测,其使用速率-失真损失和熵瓶颈来学习压缩编码的潜在表示,有助于实现更实际的无监督异常检测方案。
Dec, 2022
本研究解决了当前异常声音检测系统在噪声干扰、领域迁移和有限训练数据下的鲁棒性问题。提出的GenRep方法利用了强大的预训练特征提取器生成通用特征表示,以kNN技术进行领域泛化,无需微调,并在DCASE2023T2评估集上取得了73.79%的官方得分,表现出在有限数据情况下的强大鲁棒性。
Sep, 2024
本研究针对机器声音异样检测系统开发中的录音不足和异常样本稀缺的问题,提出了一种新颖的潜在扩散模型生成多样化异常声音的方法。通过利用Flan-T5模型编码音频文件元数据生成条件音频,我们的方法在生成的声音质量上超越现有模型,显示出增强异常检测系统评估和稳健性的潜力。
Sep, 2024