Jan, 2024

增强的 360 度实际音频 - 视觉声景中的声音事件定位和检测

TL;DR该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测(SELD)网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元(GRU)之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。