使用经过微调的源分离器的音乐混音听力设备
Cadenza 项目旨在提高失聪人士的音乐音质,通过音频分离和重组来个性化改善音质,其中包括例如声乐、低音、鼓声等元素,并通过耳聋程度和音频本身进行评估。
Oct, 2023
Cadenza 项目旨在通过一系列信号处理挑战来改善听力受损人群的音乐音质。该项目考虑了两种常见听音情景:戴耳机听音乐和在汽车中使用助听器。在这些情景下,通过将音乐分解为人声、低音、鼓和其他组成部分并进行智能重混,来个性化地提高听力受损人群的音质。另外,通过考虑音乐、听众的听力能力、助听器和汽车的速度,提升从汽车扬声器中传出的音乐以克服汽车噪音的遮盖效应。提交的音频质量将通过 Hearing Aid Audio Quality Index (HAAQI) 进行客观评估,同时由一组听力受损人员进行主观评价。
Oct, 2023
通过将深度滤波器从原始 DeepfilterNet 中解脱出来,并将它们融入我们基于 Spec-UNet 的网络中,进一步改进了混音管道。在比较 hdemucs 与我们模型的不同版本的性能时,我们展示了在 Signal-to-Distortion Ratio(SDR)和 Hearing Aid Audio Quality Index(HAAQI)度量中的逐步改进。
Apr, 2024
本文旨在介绍音乐分离的任务以及该任务的两个新的基准数据集,比较流行模型的表现并提供评估排名,同时提供可下载的基准数据集。作者提出了一种使用不同模型进行集成的新方法,并在音乐分离挑战赛中取得了最佳结果,该方法的代码和技术细节已在 GitHub 上公开。
May, 2023
通过借鉴 Hybrid Demucs 架构,本文提出了混合谱图时域音频分离网络(HS-TasNet),结合了频谱和波形域的优势,为实时低延迟的音乐应用展现了高效分离的潜力。
Feb, 2024
介绍了 HAAQI-Net,一种针对助听器用户定制的非侵入式深度学习模型,用于音乐质量评估。相比传统方法如 HAAQI(Hearing Aid Audio Quality Index),HAAQI-Net 利用注意力机制的双向长短时记忆(BLSTM)。它采用了来自音频转换器(BEATs)的预训练的双向编码器表示进行声学特征提取。通过与真实数据进行对比,HAAQI-Net 实现了 0.9257 的纵向一致相关系数(LCC),0.9394 的斯皮尔曼等级相关系数(SRCC)和 0.0080 的均方误差(MSE)。值得注意的是,这种高性能伴随着推理时间的大大缩短:从 62.52 秒(HAAQI)到 2.71 秒(HAAQI-Net),为助听器用户提供高效的音乐质量评估模型。
Jan, 2024
本文介绍了我们在 2023 年声音分离比赛的音乐分离赛道中获奖的两种解决方案,分别使用了一种时间有效的源分离网络和一种用于噪音鲁棒源分离的损失掩蔽方法。
Jun, 2023
该论文探讨了音乐分离的研究现状和挑战,并提出了一种基于机器学习竞赛平台的音乐分离比赛,该比赛提供了更广泛的音乐流派和更多的混音工程师,并包括基线,评价度量,评估结果和技术挑战。
Aug, 2021