ICASSP 2024 语音信号改善挑战
我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力,包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型,经测试,在官方 Eval1 和 Eval2 数据集上,我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。
Dec, 2023
ICASSP 2023 举办的 L3DAS23 信号处理大赛旨在促进和支持机器学习在 3D 音频信号处理方面的合作研究,特别关注扩展现实应用中的 3D 语音增强和 3D 声音事件定位和检测。该论文介绍了竞赛提供的全新数据集和基线模型,以及参与者的结果。
Feb, 2024
促进驾驶场景下的语音处理和识别研究,建立在 ISCSLP 2022 举办的智能座舱语音识别挑战(ICSRC)成功的基础上,我们推出 ICASSP 2024 车载多通道自动语音识别(ICMC-ASR)挑战。该挑战收集了 100 多小时的多通道语音数据,记录在新能源汽车内,以及 40 小时的噪声用于数据增强。设立了两个赛道,包括自动语音识别(ASR)和自动语音日志记录与识别(ASDR),使用字符错误率(CER)和连接最小排列字符错误率(cpCER)作为评估指标。总体上,ICMC-ASR 挑战吸引了 98 支参赛团队,同时在两个赛道上收到了 53 份有效结果。最后,第一名的 USTCiflytek 团队在 ASR 赛道上取得 13.16% 的 CER,并在 ASDR 赛道上取得 21.48% 的 cpCER,与我们的挑战基线相比,在 ASR 方面绝对改进了 13.08%,在 ASDR 方面绝对改进了 51.4%。
Jan, 2024
Cadenza 项目旨在提高失聪人士的音乐音质,通过音频分离和重组来个性化改善音质,其中包括例如声乐、低音、鼓声等元素,并通过耳聋程度和音频本身进行评估。
Oct, 2023
本研究旨在促进噪声抑制技术的创新,提高感知语音质量。通过在 INTERSPEECH 2020 会议上举行 Deep Noise Suppression Challenge 特别会议以及开源训练和测试数据集,来推动该领域的研究。挑战赛分为两个方向,一个专注于实时去噪,另一个专注于实时个性化深度噪声抑制。我们还提供了一种非侵入式的客观语音质量指标 DNSMOS,在开发阶段供参与者使用,最终评估将基于主观测试。
Sep, 2020
介绍了交互式语音技术协会 2020 年举办的深度噪声抑制挑战赛,通过提供大规模干净语音和噪声语料库对话音频,以及基于 ITU-T P.808 的在线主观测试框架,比较了不同算法的噪声抑制效果。
May, 2020
本文介绍了 ISCSLP 2022 中英文混合自动语音识别(CSASR)挑战赛,包括训练集、开发集和测试集等数据,以及参赛队伍的表现和技术。其中获胜队伍在测试集上取得了 16.70% 的混合误差率(MER)表现,并且相对基准系统取得了 9.8% 的 MER 绝对改善。
Oct, 2022
Deep Noise Suppression Challenge aims to improve speech quality through open-sourced datasets and evaluation frameworks using two tracks focused on real-time denoising for wideband and full band scenarios, as well as making available a reliable objective speech quality metric called DNSMOS.
Jan, 2021
该研究论文旨在研发一种语音匿名化系统,以隐藏说话者的身份并保护语言内容,语用属性,可理解度和自然度。研究提供数据集,基础匿名化系统,评估脚本和度量标准,并邀请参与者提交他们的匿名化系统并提交匿名化语音数据以进行评估。
Mar, 2022