L3DAS23 挑战赛:音频视觉扩展现实综述
L3DAS21 挑战是鼓励和促进关于 3D 音频信号处理的机器学习合作研究,特别关注于 3D 语音增强(SE)和 3D 声音定位和检测(SELD)。此挑战提供了一个 65 小时的 3D 音频数据集和用于数据使用和提交结果的 Python API。本报告旨在提供参加 L3DAS21 挑战所需的所有信息,包括 L3DAS21 数据集的详细信息,挑战任务和基线模型。
Apr, 2021
通过引入数据集合成器,为 ICASSP 2024 演讲信号改进大挑战赛增加了 13 个实时系统和 11 个非实时系统的评估指标,同时还引入了目标指标和 2023 测试集的数据。
Jan, 2024
本文提出了一个音频 - 视频声音事件本地化和检测(SELD)任务,它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件,并介绍了一个音频 - 视觉数据集,其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。
Jun, 2023
报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误报,而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER,远远优于所有基线,在比赛中取得了第一名。
Oct, 2022
该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测(SELD)网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元(GRU)之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。
Jan, 2024
本文介绍了我们在实战录音的声音场景分类任务和声音事件检测任务中采用的低级和高级特征、分类器优化以及特定的其他方法,我们的表现优于 DCASE 的基线,对于任务 1,我们的总体准确性为 78.9%,超过基线 72.6%;对于任务 3,我们的基于段的错误率为 0.76,超过基线 0.91。
Jul, 2016
本文发现,缺少可用于训练和测试信号处理和机器学习算法的具有代表性的数据集,介绍并放出了一个包含超过 5 小时多模态数据的数据集,以便建立多模态 AR 方案以减少鸡尾酒会效应。
Jul, 2021
利用声音信息结合图像信息进行空中场景识别,通过构建新的 AVANET 数据集,通过多模式的学习框架将声音事件的知识转化到空中场景识别的任务中,提高识别效果。
May, 2020
介绍了在 DCASE 2019 Challenge 中首次国际评估声音事件定位和检测的概述,通过大规模实际场景的数据集进行训练,评估发现,基于联合计算的共同测量参数对于比较检测和定位的系统排名更为准确。
Sep, 2020