鲁棒音频异常检测

Feb, 2022

Robust Audio Anomaly Detection

Wo Jae Lee, Karim Helwani, Arvindh Krishnaswamy, Srikanth Tenneti

TL;DR提出了一种鲁棒性较强的多元时间序列模型，可用于基于噪声训练数据检测以前未见过的异常声音，并使用新颖的深度神经网络体系结构学习多元时间序列的时间动态，从而模拟未来样本的条件概率分布。

Abstract

We propose an outlier robust multivariate time series model which can be used for detecting previously unseen anomalous sounds based on noisy training data. The presented approach doesn't assume the presence of l

发现论文，激发创造

适用于真实录音的多声音事件检测的循环神经网络

本文提出了一种基于BLSTM循环神经网络的多音事件检测方法，该方法通过训练一个多标签BLSTM RNN，将包括音乐、车辆、讲话等61类在内的多种声音的声学特征映射到每个事件类别的二进制活动指示符上，并且通过使用数据增强技术进一步提高了识别结果的准确性，系统在实测中平均F1分数分别为65.5％和64.7％。

Apr, 2016

卷积循环神经网络用于多声事件检测

本研究利用卷积神经网络 (CNN) 和循环神经网络 (RNN) 实现了声音事件监测，取得了比之前方法显著的效果提升。

Feb, 2017

利用空间特征和卷积循环神经网络进行声音事件检测

本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测，通过初始阶段从每个通道中单独学习这些多通道特征，扩展了卷积递归神经网络以处理更多类型的这些特征，并表明将特征呈现为体积的单独层，而不是将每个通道的特征串联成单个特征向量，可以更好地学习多通道音频中的声音事件。与单声道特征相比，在相同网络上使用所提出的空间特征，在公开可用的TUT-SED 2016数据集上的F-score提高了6.1％，在TUT-SED 2009数据集上的F-score提高了2.7％，该数据集是其15倍大。

Jun, 2017

多元时间序列数据非监督异常检测和诊断的深度神经网络

该论文提出了一种名为“MSCRED”的多尺度卷积循环编码器-解码器模型，用于在多元时间序列数据中执行异常检测和诊断，并且在合成数据集和实际电厂数据集上进行了广泛的实证研究，证明MSCRED可以优于现有的基线方法。

Nov, 2018

通过异常模式检测识别音频对抗样本

本文研究基于深度神经网络的音频处理模型容易受到对抗攻击的问题，提出了在激活空间中应用异常模式检测技术来检测对抗性样本，并可以在不降低对良性样本性能的情况下检测出两种最新的对抗攻击，AUC最高可达0.98。

Feb, 2020

心跳异常检测的自动特征提取

使用自动编码器从原始心跳音频中提取特征，探究在医疗保健中的异常检测应用。通过1D非因果卷积编码器和WaveNet解码器组成的自编码器进行特征学习，采用基于变分推理的修改目标及最大平均偏差（MMD）。此外，使用高斯链图模型对潜在分布进行建模以捕捉编码信号的时间相关性。在无监督方式下对自动编码器进行重新构建任务的训练后，通过训练SVM来预测异常，并在PASCAL分类心脏声音挑战提出的问题上进行评估，与文献中的结果进行比较。

Feb, 2021

工业传感器大型时间序列的多尺度异常检测

提出一种基于重构的异常检测方法 MissGAN，通过迭代学习将自然而平滑的时间序列重视切分为较粗的片段，并在低维度表示基础上发现更细的段落，从而学习多尺度段落，并通过对抗规则和额外条件状态重构一个有意义且稳健的时间序列，不需要标签或仅需要正常实例的标签，适用范围广泛。

Apr, 2022

面向鲁棒性无监督时间序列异常检测的有损压缩

本文提出了一种新的损失因果时间卷积神经网络自编码器来进行异常检测，其使用速率-失真损失和熵瓶颈来学习压缩编码的潜在表示，有助于实现更实际的无监督异常检测方案。

Dec, 2022

深度通用表示用于领域泛化的异常声音检测

本研究解决了当前异常声音检测系统在噪声干扰、领域迁移和有限训练数据下的鲁棒性问题。提出的GenRep方法利用了强大的预训练特征提取器生成通用特征表示，以kNN技术进行领域泛化，无需微调，并在DCASE2023T2评估集上取得了73.79%的官方得分，表现出在有限数据情况下的强大鲁棒性。

Sep, 2024

MIMII-Gen：用于异常声音检测系统模拟评估的生成建模方法

本研究针对机器声音异样检测系统开发中的录音不足和异常样本稀缺的问题，提出了一种新颖的潜在扩散模型生成多样化异常声音的方法。通过利用Flan-T5模型编码音频文件元数据生成条件音频，我们的方法在生成的声音质量上超越现有模型，显示出增强异常检测系统评估和稳健性的潜力。

Sep, 2024