Jun, 2023

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

TL;DR本文提出了一个音频 - 视频声音事件本地化和检测(SELD)任务,它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件,并介绍了一个音频 - 视觉数据集,其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。