Cadenza ICASSP 2024 大挑战
Cadenza 项目旨在通过一系列信号处理挑战来改善听力受损人群的音乐音质。该项目考虑了两种常见听音情景:戴耳机听音乐和在汽车中使用助听器。在这些情景下,通过将音乐分解为人声、低音、鼓和其他组成部分并进行智能重混,来个性化地提高听力受损人群的音质。另外,通过考虑音乐、听众的听力能力、助听器和汽车的速度,提升从汽车扬声器中传出的音乐以克服汽车噪音的遮盖效应。提交的音频质量将通过 Hearing Aid Audio Quality Index (HAAQI) 进行客观评估,同时由一组听力受损人员进行主观评价。
Oct, 2023
本文介绍了我们参与 Cadenza ICASSP 2024 Grand Challenge 的系统提交,该挑战涉及为助听器用户重新混音和提升音乐的问题。我们的系统在挑战中排名第一,在评估数据集上实现了最佳平均助听器音频质量指数(HAAQI)得分。我们描述了使用深度学习音乐源分离器的合奏系统,并通过消融研究分析了不同系统方面的重要性。
Jan, 2024
通过将深度滤波器从原始 DeepfilterNet 中解脱出来,并将它们融入我们基于 Spec-UNet 的网络中,进一步改进了混音管道。在比较 hdemucs 与我们模型的不同版本的性能时,我们展示了在 Signal-to-Distortion Ratio(SDR)和 Hearing Aid Audio Quality Index(HAAQI)度量中的逐步改进。
Apr, 2024
通过引入数据集合成器,为 ICASSP 2024 演讲信号改进大挑战赛增加了 13 个实时系统和 11 个非实时系统的评估指标,同时还引入了目标指标和 2023 测试集的数据。
Jan, 2024
ICASSP 2023 举办的 L3DAS23 信号处理大赛旨在促进和支持机器学习在 3D 音频信号处理方面的合作研究,特别关注扩展现实应用中的 3D 语音增强和 3D 声音事件定位和检测。该论文介绍了竞赛提供的全新数据集和基线模型,以及参与者的结果。
Feb, 2024
本文旨在介绍音乐分离的任务以及该任务的两个新的基准数据集,比较流行模型的表现并提供评估排名,同时提供可下载的基准数据集。作者提出了一种使用不同模型进行集成的新方法,并在音乐分离挑战赛中取得了最佳结果,该方法的代码和技术细节已在 GitHub 上公开。
May, 2023
本文介绍了我们在 2023 年声音分离比赛的音乐分离赛道中获奖的两种解决方案,分别使用了一种时间有效的源分离网络和一种用于噪音鲁棒源分离的损失掩蔽方法。
Jun, 2023
该论文探讨了音乐分离的研究现状和挑战,并提出了一种基于机器学习竞赛平台的音乐分离比赛,该比赛提供了更广泛的音乐流派和更多的混音工程师,并包括基线,评价度量,评估结果和技术挑战。
Aug, 2021
介绍了 HAAQI-Net,一种针对助听器用户定制的非侵入式深度学习模型,用于音乐质量评估。相比传统方法如 HAAQI(Hearing Aid Audio Quality Index),HAAQI-Net 利用注意力机制的双向长短时记忆(BLSTM)。它采用了来自音频转换器(BEATs)的预训练的双向编码器表示进行声学特征提取。通过与真实数据进行对比,HAAQI-Net 实现了 0.9257 的纵向一致相关系数(LCC),0.9394 的斯皮尔曼等级相关系数(SRCC)和 0.0080 的均方误差(MSE)。值得注意的是,这种高性能伴随着推理时间的大大缩短:从 62.52 秒(HAAQI)到 2.71 秒(HAAQI-Net),为助听器用户提供高效的音乐质量评估模型。
Jan, 2024
为了更好地解释语音样本中的背景噪声,并对内容进行全面理解,我们提出了多种方法来实现自动语音识别和自动音频字幕的端对端联合建模,并使用混合干净语音和多种背景噪声的多任务数据集进行实验验证。
Feb, 2022