Cadenza ICASSP 2024 大挑战

Oct, 2023

The Cadenza ICASSP 2024 Grand Challenge

Gerardo Roa Dabike, Michael A. Akeroyd, Scott Bannister, Jon Barker, Trevor J. Cox...

TL;DRCadenza 项目旨在提高失聪人士的音乐音质，通过音频分离和重组来个性化改善音质，其中包括例如声乐、低音、鼓声等元素，并通过耳聋程度和音频本身进行评估。

Abstract

The cadenza project aims to enhance the audio quality of music for individuals with hearing loss. As part of this, the project is organizi

cadenza project audio quality hearing loss cadenza challenge hearing aid audio quality index

发现论文，激发创造

第一届坎迪纳信号处理挑战赛：改进听力受损人士的音乐

Cadenza 项目旨在通过一系列信号处理挑战来改善听力受损人群的音乐音质。该项目考虑了两种常见听音情景：戴耳机听音乐和在汽车中使用助听器。在这些情景下，通过将音乐分解为人声、低音、鼓和其他组成部分并进行智能重混，来个性化地提高听力受损人群的音质。另外，通过考虑音乐、听众的听力能力、助听器和汽车的速度，提升从汽车扬声器中传出的音乐以克服汽车噪音的遮盖效应。提交的音频质量将通过 Hearing Aid Audio Quality Index (HAAQI) 进行客观评估，同时由一组听力受损人员进行主观评价。

Oct, 2023

使用经过微调的源分离器的音乐混音听力设备

本文介绍了我们参与 Cadenza ICASSP 2024 Grand Challenge 的系统提交，该挑战涉及为助听器用户重新混音和提升音乐的问题。我们的系统在挑战中排名第一，在评估数据集上实现了最佳平均助听器音频质量指数（HAAQI）得分。我们描述了使用深度学习音乐源分离器的合奏系统，并通过消融研究分析了不同系统方面的重要性。

Jan, 2024

深层滤波器的音乐增强技术: ICASSP 2024 Cadenza Challenge 技术报告

通过将深度滤波器从原始 DeepfilterNet 中解脱出来，并将它们融入我们基于 Spec-UNet 的网络中，进一步改进了混音管道。在比较 hdemucs 与我们模型的不同版本的性能时，我们展示了在 Signal-to-Distortion Ratio（SDR）和 Hearing Aid Audio Quality Index（HAAQI）度量中的逐步改进。

Apr, 2024

ICASSP 2024 语音信号改善挑战

通过引入数据集合成器，为 ICASSP 2024 演讲信号改进大挑战赛增加了 13 个实时系统和 11 个非实时系统的评估指标，同时还引入了目标指标和 2023 测试集的数据。

Jan, 2024

L3DAS23 挑战赛：音频视觉扩展现实综述

ICASSP 2023 举办的 L3DAS23 信号处理大赛旨在促进和支持机器学习在 3D 音频信号处理方面的合作研究，特别关注扩展现实应用中的 3D 语音增强和 3D 声音事件定位和检测。该论文介绍了竞赛提供的全新数据集和基线模型，以及参与者的结果。

Feb, 2024

声音分离任务的基准测试和排行榜

本文旨在介绍音乐分离的任务以及该任务的两个新的基准数据集，比较流行模型的表现并提供评估排名，同时提供可下载的基准数据集。作者提出了一种使用不同模型进行集成的新方法，并在音乐分离挑战赛中取得了最佳结果，该方法的代码和技术细节已在 GitHub 上公开。

May, 2023

2023 声音分离挑战 -- 音乐分离赛道技术报告

本文介绍了我们在 2023 年声音分离比赛的音乐分离赛道中获奖的两种解决方案，分别使用了一种时间有效的源分离网络和一种用于噪音鲁棒源分离的损失掩蔽方法。

Jun, 2023

2021 音乐分离挑战赛

该论文探讨了音乐分离的研究现状和挑战，并提出了一种基于机器学习竞赛平台的音乐分离比赛，该比赛提供了更广泛的音乐流派和更多的混音工程师，并包括基线，评价度量，评估结果和技术挑战。

Aug, 2021

HAAQI-Net：适用于助听器的非侵入式神经音乐质量评估模型

介绍了 HAAQI-Net，一种针对助听器用户定制的非侵入式深度学习模型，用于音乐质量评估。相比传统方法如 HAAQI（Hearing Aid Audio Quality Index），HAAQI-Net 利用注意力机制的双向长短时记忆（BLSTM）。它采用了来自音频转换器（BEATs）的预训练的双向编码器表示进行声学特征提取。通过与真实数据进行对比，HAAQI-Net 实现了 0.9257 的纵向一致相关系数（LCC），0.9394 的斯皮尔曼等级相关系数（SRCC）和 0.0080 的均方误差（MSE）。值得注意的是，这种高性能伴随着推理时间的大大缩短：从 62.52 秒（HAAQI）到 2.71 秒（HAAQI-Net），为助听器用户提供高效的音乐质量评估模型。

Jan, 2024

联合语音识别和音频字幕

为了更好地解释语音样本中的背景噪声，并对内容进行全面理解，我们提出了多种方法来实现自动语音识别和自动音频字幕的端对端联合建模，并使用混合干净语音和多种背景噪声的多任务数据集进行实验验证。

Feb, 2022