ICASSP2024 ICMC-ASR 大赛的 NUS-HLT 系统
促进驾驶场景下的语音处理和识别研究,建立在 ISCSLP 2022 举办的智能座舱语音识别挑战(ICSRC)成功的基础上,我们推出 ICASSP 2024 车载多通道自动语音识别(ICMC-ASR)挑战。该挑战收集了 100 多小时的多通道语音数据,记录在新能源汽车内,以及 40 小时的噪声用于数据增强。设立了两个赛道,包括自动语音识别(ASR)和自动语音日志记录与识别(ASDR),使用字符错误率(CER)和连接最小排列字符错误率(cpCER)作为评估指标。总体上,ICMC-ASR 挑战吸引了 98 支参赛团队,同时在两个赛道上收到了 53 份有效结果。最后,第一名的 USTCiflytek 团队在 ASR 赛道上取得 13.16% 的 CER,并在 ASDR 赛道上取得 21.48% 的 cpCER,与我们的挑战基线相比,在 ASR 方面绝对改进了 13.08%,在 ASDR 方面绝对改进了 51.4%。
Jan, 2024
本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1,我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音;对于 Track 2,我们采用 Conformer 模型和神经前端模块来训练系统,实现多声道混叠语音识别,最终取得了比较好的性能表现。
Feb, 2022
通过引入数据集合成器,为 ICASSP 2024 演讲信号改进大挑战赛增加了 13 个实时系统和 11 个非实时系统的评估指标,同时还引入了目标指标和 2023 测试集的数据。
Jan, 2024
该研究提出将多通道和 U 型网络模型相结合,利用并行和远场声学的优势,在说话人识别系统中实现远场重叠语音检测,并探索了三种说话人嵌入方法,最终取得了最佳性能。
Feb, 2022
本文介绍了 NPU-ASLP-LiAuto(第 237 队)在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别(VSR)系统,涉及单说话人 VSR 任务的固定和开放跟踪,以及多说话人 VSR 任务的开放跟踪。实验结果表明,在多系统融合后,我们的系统在单说话人任务上实现了 34.76% 的 CER,在多说话人任务上实现了 41.06% 的 CER,在我们参与的所有三个跟踪中排名第一。
Jan, 2024
介绍了 dun_oscar 团队提交的 ICPR MSR Challenge 系统,分别描述了任务 1 - 任务 3 的三个子系统。在任务 1 中,我们开发了一个视觉系统,包括 OCR 模型、文本跟踪器和 NLP 分类器,用于区分字幕和非字幕。任务 2 中,我们采用了一个包括 18 层 AM 和 4-gram LM 的 ASR 系统,并进行了半监督学习。任务 3 中,我们采用 ASR 系统来改进视觉系统,一些错误的字幕可以通过融合模块进行纠正。
Mar, 2023
本文介绍了 ISCSLP 2022 中英文混合自动语音识别(CSASR)挑战赛,包括训练集、开发集和测试集等数据,以及参赛队伍的表现和技术。其中获胜队伍在测试集上取得了 16.70% 的混合误差率(MER)表现,并且相对基准系统取得了 9.8% 的 MER 绝对改善。
Oct, 2022
这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别(VSR)固定轨道的系统。具体来说,我们在模型中使用中间连接主义时间分类(Inter CTC)残差模块来放宽 CTC 的条件独立性假设,然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外,我们使用汉字作为建模单元来提高模型的识别准确性。最后,在推断阶段,我们使用了递归神经网络语言模型(RNNLM)进行浅层融合。实验表明,我们的系统在评估集上的字符错误率(CER)为 38.09%,相对于官方基准线减少了 21.63%,并在挑战赛中获得了第二名。
Dec, 2023
该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统,包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。
Jun, 2022
在 CN-Celeb 讲者识别挑战赛中,我们使用 ResNet、RepVGG 和 TDNN 架构,采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理,并使用 AM-Softmax 算法对其进行分类,最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。
Sep, 2022