STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

Jun, 2023

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events

Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel Krause, Kengo Uchida...

TL;DR本文提出了一个音频 - 视频声音事件本地化和检测（SELD）任务，它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件，并介绍了一个音频 - 视觉数据集，其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。

Abstract

While direction of arrival (DOA) of sound events is generally estimated from multichannel audio data recorded in a microphone array,

audio-visual direction of arrival sound events localization multichannel

发现论文，激发创造

声音事件检测和定位与距离估计

本文提出了一种新方法，即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位，并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案，并探究了与距离估计相关的损失函数，实验结果表明，在不降低声音事件检测和定位准确性的情况下，可以进行三维声音事件检测、定位。

Mar, 2024

增强的 360 度实际音频 - 视觉声景中的声音事件定位和检测

该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测（SELD）网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元（GRU）之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。

Jan, 2024

具有移动源的混响空间声音场景数据集用于声音事件定位和检测

该报告介绍了 DCASE2020 挑战赛 SELD 任务的数据集和评估设置，该任务涉及同时分类已知的声音事件类别、检测其时间激活，并在其活动时估计其空间方向或位置。

Jun, 2020

声音事件定位和检测的多房混响数据集

本文介绍了用于 DCASE2019 挑战赛的 “声音事件定位与检测”（SELD）任务设置及其基准方法。使用卷积循环神经网络实现了基准方法，对含混响的数据集进行了评估。

May, 2019

具动态混响声场和方向干扰源的声音事件定位和检测数据集

本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者，使得该数据集更具挑战性。实验结果表明，定向干扰者对数据集有很大的影响。

Jun, 2021

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024

使用卷积循环神经网络进行声音事件定位和重叠源检测

本研究提出了一种卷积循环神经网络，用于在三维空间中联合定位和检测多个重叠声音事件。该方法能够有效地估计声音事件的位置和检测每个时间帧中所有声音事件类的活动，并且避免了特征提取方面的任何限制。

Jun, 2018

使用两阶段策略的多音色声音事件检测和定位

本文提出基于神经网络的声音事件检测和定位方法，该方法训练得到的声音事件检测模型可以帮助到方位角的估计，同时也能够显著提高声音事件检测和方位角估计的性能。

May, 2019

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018

地理标记音视航拍场景识别的跨任务传递

利用声音信息结合图像信息进行空中场景识别，通过构建新的 AVANET 数据集，通过多模式的学习框架将声音事件的知识转化到空中场景识别的任务中，提高识别效果。

May, 2020