AGS: 国内场景声音事件识别的数据集和分类系统

Aug, 2023

AGS: 国内场景声音事件识别的数据集和分类系统

AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition

Nan Che, Chenrui Liu, Fei Yu

TL;DR本文提出了一个家庭环境声音数据集（称为 AGS），考虑了场景中各种类型的重叠音频和背景噪音，比较分析了先进的声音事件识别方法，并展示了该数据集的可靠性和新数据集带来的挑战。

Abstract

environmental sound scene and sound event recognition is important for the recognition of suspicious events in indoor and outdoor environments (such as nurseries, smart homes, nursing homes, etc.) and is a fundam

environmental sound scene sound event recognition data set audio surveillance applications reliability

发现论文，激发创造

地理标记音视航拍场景识别的跨任务传递

利用声音信息结合图像信息进行空中场景识别，通过构建新的 AVANET 数据集，通过多模式的学习框架将声音事件的知识转化到空中场景识别的任务中，提高识别效果。

May, 2020

家庭环境下大规模弱标注半监督声音事件检测

本文介绍 DCASE 2018 任务 4，重点评估了利用弱标签数据（没有时间边界）进行大规模声音事件检测的系统，挑战在于探索未标记的数据集与小的弱标签训练集结合以提高系统性能。数据来源于 YouTube 家庭环境视频片段，具有环境辅助生活等很多应用潜力。

Jul, 2018

声学场景分类

介绍声音场景分类中的一些当前前沿、定义一个标准框架，并提供各种不同算法、提交给数据挑战以及评估人类分类准确性的表现，最终得出三种算法显著优于基准方法，但在某些场景下算法和人类都会出现误差。

Nov, 2014

具有移动源的混响空间声音场景数据集用于声音事件定位和检测

该报告介绍了 DCASE2020 挑战赛 SELD 任务的数据集和评估设置，该任务涉及同时分类已知的声音事件类别、检测其时间激活，并在其活动时估计其空间方向或位置。

Jun, 2020

韧性、通用且低复杂度声景分类系统和一个有效的声景上下文呈现可视化工具

本文提出了一种基于残差 - 插入结构网络的深度神经网络模型，实现了场景噪音的准确识别，并进行了模型细节及误差分析，提高了模型效果和性能，同时提出了一种可视化方法以全面展示场景上下文。

Oct, 2022

视觉场景图用于音频源分离

本文提出了一种基于 Audio Visual Scene Graph Segmenter (AVSGS) 的深度学习模型，通过嵌入场景的视觉结构，并将其分割为子图，实现音频源分离；同时，介绍了一个全新的数据集 Audio Separation in the Wild (ASIW)，证明了该方法在音源分离方面的卓越表现。

Sep, 2021

DCASE 挑战赛 2016 上的实验：现实录音中的声音场景分类和声音事件检测

本文介绍了我们在实战录音的声音场景分类任务和声音事件检测任务中采用的低级和高级特征、分类器优化以及特定的其他方法，我们的表现优于 DCASE 的基线，对于任务 1，我们的总体准确性为 78.9％，超过基线 72.6％；对于任务 3，我们的基于段的错误率为 0.76，超过基线 0.91。

Jul, 2016

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

本文提出了一个音频 - 视频声音事件本地化和检测（SELD）任务，它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件，并介绍了一个音频 - 视觉数据集，其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。

Jun, 2023

声音事件定位和检测的多房混响数据集

本文介绍了用于 DCASE2019 挑战赛的 “声音事件定位与检测”（SELD）任务设置及其基准方法。使用卷积循环神经网络实现了基准方法，对含混响的数据集进行了评估。

May, 2019

婴儿中心家庭声音环境中的声音标记

通过于婴儿身上佩戴的记录设备，我们收集并标记了 22 个家庭中家庭声音环境中的噪音，并探讨了一个大型预训练模型（Audio Spectrogram Transformer [AST]）在这些婴儿中心化的环境数据以及公开可用的家庭环境数据集上的性能表现。结果显示，将我们收集的数据集与公开数据集相结合进行精调，与仅使用公开或收集的数据集进行训练相比，F1 得分从 0.11（公开数据集）和 0.76（收集的数据集）提高到 0.84，Cohen's Kappa 从 0.013（公开数据集）和 0.77（收集的数据集）提升到 0.83。

Jun, 2024