增强的 360 度实际音频 - 视觉声景中的声音事件定位和检测

Jan, 2024

增强的 360 度实际音频 - 视觉声景中的声音事件定位和检测

Enhanced Sound Event Localization and Detection in Real 360-degree audio-visual soundscapes

Adrian S. Roman, Baladithya Balamurugan, Rithik Pothuganti

TL;DR该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测（SELD）网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元（GRU）之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。

Abstract

This technical report details our work towards building an enhanced audio-visual sound event localization and detection (SELD) network. We build on top of the audio-only seldnet23 model and adapt it to be audio-v

audio-visual sound event localization and detection seld network audio-only seldnet23 model audio-visual data augmentation audio-visual synthetic data generation

发现论文，激发创造

使用卷积循环神经网络进行声音事件定位和重叠源检测

本研究提出了一种卷积循环神经网络，用于在三维空间中联合定位和检测多个重叠声音事件。该方法能够有效地估计声音事件的位置和检测每个时间帧中所有声音事件类的活动，并且避免了特征提取方面的任何限制。

Jun, 2018

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

本文提出了一个音频 - 视频声音事件本地化和检测（SELD）任务，它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件，并介绍了一个音频 - 视觉数据集，其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。

Jun, 2023

声音事件定位和检测的多房混响数据集

本文介绍了用于 DCASE2019 挑战赛的 “声音事件定位与检测”（SELD）任务设置及其基准方法。使用卷积循环神经网络实现了基准方法，对含混响的数据集进行了评估。

May, 2019

声音事件检测和定位与距离估计

本文提出了一种新方法，即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位，并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案，并探究了与距离估计相关的损失函数，实验结果表明，在不降低声音事件检测和定位准确性的情况下，可以进行三维声音事件检测、定位。

Mar, 2024

双模态 seq2seq 网络用于音频 - 视觉事件定位

本文介绍了一种名为 AVSDN 的深度神经网络，通过联合考虑每个时间段的音频和视觉特征作为输入，以序列到序列的方式学习全局和局部事件信息，在完全监督或弱监督设置下获得了良好的结果，并在音频视觉事件定位方面优于最近的深度学习方法。

Feb, 2019

SELD-TCN: 基于时间卷积网络的声音事件定位和检测

自主机器人系统需要考虑声音信息，作者提出了一种基于时间卷积网络的新型结构 (SELD-TCN)，可以提高声音事件定位和检测 (SELD) 的效率和性能。

Mar, 2020

具有移动源的混响空间声音场景数据集用于声音事件定位和检测

该报告介绍了 DCASE2020 挑战赛 SELD 任务的数据集和评估设置，该任务涉及同时分类已知的声音事件类别、检测其时间激活，并在其活动时估计其空间方向或位置。

Jun, 2020

装备声音事件检测与语言模型能力

通过语言模型结合音频特征和文本特征，本研究提出了一种高效的声音事件检测方法，实现了精准的声音事件分类和时序定位。与传统方法相比，该模型更简洁全面，直接利用语言模型的语义能力生成时序和事件序列，获得了准确的声音事件检测结果。

Aug, 2023

利用空间和谐特征在多通道音频中进行声音事件检测

本文提出使用空间和谐特征结合 LSTM 循环神经网络进行自动声音事件检测任务，并将其与现有的单声道方法进行比较，结果表明使用多声道音频、空间和谐特征的自动声音事件检测方法能够提高检测性能。

Jun, 2017

无约束视频中的视听事件定位

本文介绍了一个新的无约束视频中的音频视觉事件定位问题，使用 AVE 数据集进行研究，提出了使用双模态残差网络结合音频引导视觉注意力机制处理音频视觉相关性的方案，并针对跨模态定位提出跨模态距离学习网络。实验结果表明，联合建模听觉和视觉模型优于独立建模，学习到的注意力可以捕捉声音对象的语义，音频视觉融合的时序对齐很重要，所提出的 DMRN 在融合音频视觉特征方面非常有效，两个模态之间的强相关性使跨模态定位成为可能。

Mar, 2018