L3DAS23 挑战赛：音频视觉扩展现实综述

Feb, 2024

L3DAS23 挑战赛：音频视觉扩展现实综述

Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality

Christian Marinoni, Riccardo Fosco Gramaccioni, Changan Chen, Aurelio Uncini, Danilo Comminiello

TL;DRICASSP 2023 举办的 L3DAS23 信号处理大赛旨在促进和支持机器学习在 3D 音频信号处理方面的合作研究，特别关注扩展现实应用中的 3D 语音增强和 3D 声音事件定位和检测。该论文介绍了竞赛提供的全新数据集和基线模型，以及参与者的结果。

Abstract

The primary goal of the l3das23 signal processing grand challenge at ICASSP 2023 is to promote and support collaborative research on machine learning for →

l3das23 signal processing grand challenge machine learning 3d audio signal processing 3d speech enhancement 3d sound event localization and detection

发现论文，激发创造

L3DAS21 Challenge: 机器学习用于 3D 声音信号处理

L3DAS21 挑战是鼓励和促进关于 3D 音频信号处理的机器学习合作研究，特别关注于 3D 语音增强（SE）和 3D 声音定位和检测（SELD）。此挑战提供了一个 65 小时的 3D 音频数据集和用于数据使用和提交结果的 Python API。本报告旨在提供参加 L3DAS21 挑战所需的所有信息，包括 L3DAS21 数据集的详细信息，挑战任务和基线模型。

Apr, 2021

ICASSP 2024 语音信号改善挑战

通过引入数据集合成器，为 ICASSP 2024 演讲信号改进大挑战赛增加了 13 个实时系统和 11 个非实时系统的评估指标，同时还引入了目标指标和 2023 测试集的数据。

Jan, 2024

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

本文提出了一个音频 - 视频声音事件本地化和检测（SELD）任务，它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件，并介绍了一个音频 - 视觉数据集，其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。

Jun, 2023

2022 年 Ego4D 挑战赛中英特尔实验室：音视频对话更优秀的基线

报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法，该方法通过对模型的训练计划进行修改改进了声音活动的检测性能，证明了采用现成的语音活动检测模型可以有效地消除误报，而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER，远远优于所有基线，在比赛中取得了第一名。

Oct, 2022

增强的 360 度实际音频 - 视觉声景中的声音事件定位和检测

该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测（SELD）网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元（GRU）之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。

Jan, 2024

DCASE 挑战赛 2016 上的实验：现实录音中的声音场景分类和声音事件检测

本文介绍了我们在实战录音的声音场景分类任务和声音事件检测任务中采用的低级和高级特征、分类器优化以及特定的其他方法，我们的表现优于 DCASE 的基线，对于任务 1，我们的总体准确性为 78.9％，超过基线 72.6％；对于任务 3，我们的基于段的错误率为 0.76，超过基线 0.91。

Jul, 2016

LRS3-TED: 用于视觉语音识别的大规模数据集

介绍一个包含 TED 演讲视频中的面部轨迹，字幕和单词对齐信息的大规模新型多模态数据集，适用于视觉和视听语音识别的研究。

Sep, 2018

EasyCom：噪声环境下支持易于交流算法的增强现实数据集

本文发现，缺少可用于训练和测试信号处理和机器学习算法的具有代表性的数据集，介绍并放出了一个包含超过 5 小时多模态数据的数据集，以便建立多模态 AR 方案以减少鸡尾酒会效应。

Jul, 2021

地理标记音视航拍场景识别的跨任务传递

利用声音信息结合图像信息进行空中场景识别，通过构建新的 AVANET 数据集，通过多模式的学习框架将声音事件的知识转化到空中场景识别的任务中，提高识别效果。

May, 2020

DCASE 2019 中声音事件定位和检测的概述和评估

介绍了在 DCASE 2019 Challenge 中首次国际评估声音事件定位和检测的概述，通过大规模实际场景的数据集进行训练，评估发现，基于联合计算的共同测量参数对于比较检测和定位的系统排名更为准确。

Sep, 2020