ESResNet：基于视觉领域模型的环境声音分类

Apr, 2020

ESResNet：基于视觉领域模型的环境声音分类

ESResNet: Environmental Sound Classification Based on Visual Domain Models

Andrey Guzhov, Federico Raue, Jörn Hees, Andreas Dengel

TL;DR本文提出了一种基于 STFT 频谱图与图像领域多个网络模型相结合的模型并针对标准数据集进行了评估，在 Environmental Sound Classification 领域中取得了目前最高的分类精度。同时对该领域已有的研究方法进行了全面梳理，为其他研究提供了实用的参考。

Abstract

environmental sound classification (ESC) is an active research area in the audio domain and has seen a lot of progress in the past years. However, many of the existing approaches achieve high accuracy by relying

environmental sound classification audio spectrograms resnet attention

发现论文，激发创造

ESResNe (X) t-fbsp：学习音频时间 - 频率鲁棒变换

本文旨在提高环境声音分类的准确性，通过利用基于复频 B - 样条小波的时频转换层，加强模型的信号抗干扰能力并考察不同预训练策略的影响。使用 ImageNet 和 AudioSet 两个大规模数据集进行权重初始化和训练，本文提出的模型在 ESC-50 和 UrbanSound8K 数据集上取得了更高的准确率，达到了 95.20% 和 89.14%。

Apr, 2021

对比环境声音表示学习

利用自监督对比技术和浅层 1D CNN 提取环境音频的显著特征，进一步使用规范相关分析（CCA）来融合来自给定音频的两种输入类型的表示，并证明融合的全局特征相对于单独的表示具有更强的鲁棒性。在 ESC-50 和 UrbanSound8K 上的评估表明，该技术能够提取环境声音的大部分特征，并分别在 ESC-50 和 UrbanSound8K 数据集上获得了 12.8％和 0.9％的改进。

Jul, 2022

AudioCLIP: 将 CLIP 扩展到图像、文本和音频

本研究提出了一个扩展 CLIP 模型，使用 AudioSet 数据集来支持音频的双模和单模分类以及查询，同时保持了 CLIP 模型的零样本推理能力。此模型在环境声音分类任务上取得了新的最佳结果，并评估了提出模型的跨模态查询表现以及全量和部分训练对结果的影响。

Jun, 2021

韧性、通用且低复杂度声景分类系统和一个有效的声景上下文呈现可视化工具

本文提出了一种基于残差 - 插入结构网络的深度神经网络模型，实现了场景噪音的准确识别，并进行了模型细节及误差分析，提高了模型效果和性能，同时提出了一种可视化方法以全面展示场景上下文。

Oct, 2022

强化解释性声音分类的焦点调制网络

通过使用最近提出的无注意力聚焦调制网络（FocalNets），这篇论文在音频领域首次将 FocalNets 应用于环境声音分类任务，评估了其可解释性在流行的 ESC-50 数据集上的性能。与类似规模的视觉变换器相比，我们的方法在准确性和可解释性方面更加出色，并且在音频领域中针对事后解释的方法 PIQ 具有竞争力。

Feb, 2024

使用一维卷积神经网络进行端到端环境声音分类

本文介绍了一种基于一维卷积神经网络实现的环境声音分类方法，其可以对任意长度的音频信号进行处理，并采用 Gammaone 滤波器对其进行初始化，通过进行实验，结果表明该方法可以在 UrbanSound8k 数据集上取得 89% 的平均准确率，且性能比大多数现有手工提取特征或使用 2D 表示的方法都要优异。

Apr, 2019

IEEE ICME 2024 大挑战赛：领域偏移下的半监督声学场景分类

在 ICME 2024 大挑战中，我们引入了半监督领域迁移音景分类任务，鼓励参与者创新半监督学习技术，旨在开发更具鲁棒性的 ASC 模型。

Feb, 2024

学习三模态嵌入用于零样本声景映射

我们的研究主要关注声音景观映射的任务，利用先进的模型对地理位置的语音、语音的文本描述以及其拍摄地的航拍图像进行编码，构建了三种模态的共享嵌入空间，从而可以根据文本或音频查询构建任何地理区域的声音景观地图。在 SoundingEarth 数据集上，我们的方法明显优于现有最先进方法，在图像到音频的召回率改善了从 0.256 提高到 0.450。我们的代码可在此链接中找到。

Sep, 2023

面向设备的环境声音持续学习

本文提出一个简单而有效的连续学习方法，通过测量每个样本的分类不确定性来选择历史数据进行训练，避免在设备上环境音分类时出现的计算资源限制问题，实验结果表明，该方法在分类准确性和计算效率方面优于基线模型，能有效并不断学习新类别。

Jul, 2022

跨视频领域的音频自适应活动识别

本研究提出了一种基于音频自适应编码器和相关学习方法的活动识别方法，通过处理活动声音进行域自适应，进而解决活动出现场景或视角变化等域漂移问题。实验证明该方法在多个数据集上均有良好表现。

Mar, 2022