对比环境声音表示学习

Jul, 2022

Contrastive Environmental Sound Representation Learning

Peter Ochieng, Dennis Kaburu

TL;DR利用自监督对比技术和浅层 1D CNN 提取环境音频的显著特征，进一步使用规范相关分析（CCA）来融合来自给定音频的两种输入类型的表示，并证明融合的全局特征相对于单独的表示具有更强的鲁棒性。在 ESC-50 和 UrbanSound8K 上的评估表明，该技术能够提取环境声音的大部分特征，并分别在 ESC-50 和 UrbanSound8K 数据集上获得了 12.8％和 0.9％的改进。

Abstract

machine hearing of the environmental sound is one of the important issues in the audio recognition domain. It gives the machine the ability to discriminate between the different input sounds that guides its decis

machine hearing audio recognition self-supervised contrastive technique cca environmental audio

发现论文，激发创造

使用基于对比学习预训练的机器 ID 声音表示进行异常声音检测

本文使用对比学习方法，针对每个机器 ID 而不是每个音频样本优化音频表示，使用自我监督 ID 分类器微调学习模型，增强了同一 ID 音频特征之间的关系，在 DCASE 2020 Challenge Task2 数据集上的实验表明，该方法在整体异常检测性能和稳定性方面胜过了使用对比学习或自我监督分类的最先进方法。

Apr, 2023

CLAR: 对听觉特征的对比学习

本文基于 SimCLR 的前期工作，提出了适用于音频数据的各种数据增强方案，并调查了它们对预测性能的影响，同时证明了采用时频音频特征训练，在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下，该方法明显地改善了预测性能，同时比自监督训练更快地收敛并具有更好的表示能力。

Oct, 2020

使用 CNN 的声景分类方法比较研究

本文研究了使用神经网络进行环境声音分类的三种不同类型的表示：谱图、MFCC 和嵌入式表示，并使用不同的 CNN 网络和自编码器来评估它们在分类准确度上的效果。我们发现使用谱图的分类准确度最高，而使用 MFCC 的准确度最低，同时提出了一些指导性的结论和方法来提高声音环境分类的准确度。

Apr, 2022

CLARA：音频表征获取的多语言对比学习

提出了一种利用对比学习进行多语言语音和声音表示学习的新框架，旨在通过减少数据依赖性、改善各种语言和条件下的泛化能力，实现多语言共享表示，以便在有限的目标语言数据中促进跨语言转移。通过从多语言数据中自我监督学习情感表示，该方法在情感识别、音频分类和检索基准测试中展示了最先进的性能，为获得跨语言和声学条件下的共享和泛化语音表示提供了一种有效的方法。

Oct, 2023

音乐音频表示的适当对比自监督学习策略

本文研究了不同对比自监督学习方案学习的音乐音频表示，并在不同的音乐信息检索任务中经验性地评估嵌入向量，以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向，表明这些表示传达了关于音乐的听觉特征的综合信息，尽管每个自我监督策略在某些方面的信息方面有效。

Jul, 2022

使用一维卷积神经网络进行端到端环境声音分类

本文介绍了一种基于一维卷积神经网络实现的环境声音分类方法，其可以对任意长度的音频信号进行处理，并采用 Gammaone 滤波器对其进行初始化，通过进行实验，结果表明该方法可以在 UrbanSound8k 数据集上取得 89% 的平均准确率，且性能比大多数现有手工提取特征或使用 2D 表示的方法都要优异。

Apr, 2019

通用音频表示的对比学习

COLA 是一种基于对比学习的自监督预训练方法，用于学习音频的通用表示，通过在大规模的 Audioset 数据库上进行预训练，使得其在包括语音、音乐、动物声音和声学场景等 9 项分类任务中性能显著优于之前的自监督系统，并进一步通过消融研究指出了关键的设计选择。

Oct, 2020

音频表示的多格式对比学习

本研究通过多种不同格式的单一模态对比学习框架，最大程度地提高音频表示的有效性，取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上，我们的声音单一方法取得了新的最佳结果，平均精度为 0.376，准确率为 90.5％。

Mar, 2021

使用卷积神经网络比较环境声音分类的时频表示

本研究比较了不同信号处理方法在卷积神经网络进行音频分类任务时所得到的频谱图表示，发现 Mel-scaled STFT 方法表现最佳。同时还发现，信号的特点以及转化窗口的大小都对分类结果有影响，2D 卷积神经网络在大多数情况下都比 1D 效果更好。

Jun, 2017

利用受监督对比学习进行生物声学少样本检测的预训练表示

通过数据增强和监督对比学习框架，利用少量标注样本实现了对生物声学应用中的声音事件进行检测和分类的深度学习方法，并在 DCASE 挑战中获得了较好的性能。

Sep, 2023