ICASSP2024 ICMC-ASR 大赛的 NUS-HLT 系统

Dec, 2023

ICASSP2024 ICMC-ASR 大赛的 NUS-HLT 系统

The NUS-HLT System for ICASSP2024 ICMC-ASR Grand Challenge

Meng Ge, Yizhou Peng, Yidi Jiang, Jingru Lin, Junyi Ao...

TL;DR我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力，包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型，经测试，在官方 Eval1 和 Eval2 数据集上，我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。

Abstract

This paper summarizes our team's efforts in both tracks of the ICMC-ASR Challenge for in-car multi-channel automatic speech recognition. Our submitted systems for icmc-asr challenge include the multi-channel

icmc-asr challenge in-car multi-channel automatic speech recognition front-end enhancement diarization training data augmentation

发现论文，激发创造

ICMC-ASR: 2024 年 ICASSP 车载多通道自动语音识别挑战

促进驾驶场景下的语音处理和识别研究，建立在 ISCSLP 2022 举办的智能座舱语音识别挑战（ICSRC）成功的基础上，我们推出 ICASSP 2024 车载多通道自动语音识别（ICMC-ASR）挑战。该挑战收集了 100 多小时的多通道语音数据，记录在新能源汽车内，以及 40 小时的噪声用于数据增强。设立了两个赛道，包括自动语音识别（ASR）和自动语音日志记录与识别（ASDR），使用字符错误率（CER）和连接最小排列字符错误率（cpCER）作为评估指标。总体上，ICMC-ASR 挑战吸引了 98 支参赛团队，同时在两个赛道上收到了 53 份有效结果。最后，第一名的 USTCiflytek 团队在 ASR 赛道上取得 13.16% 的 CER，并在 ASDR 赛道上取得 21.48% 的 cpCER，与我们的挑战基线相比，在 ASR 方面绝对改进了 13.08%，在 ASDR 方面绝对改进了 51.4%。

Jan, 2024

ICASSP 2022 多通道多方会议转录挑战赛的 Volcspeech 系统

本文介绍了我们在 ICASSP 2022 M2MeT 挑战中的参赛作品。对于 Track 1，我们提出多种方法来加强聚类式说话人分割系统以应对重叠语音；对于 Track 2，我们采用 Conformer 模型和神经前端模块来训练系统，实现多声道混叠语音识别，最终取得了比较好的性能表现。

Feb, 2022

ICASSP 2024 语音信号改善挑战

通过引入数据集合成器，为 ICASSP 2024 演讲信号改进大挑战赛增加了 13 个实时系统和 11 个非实时系统的评估指标，同时还引入了目标指标和 2023 测试集的数据。

Jan, 2024

ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统

该研究提出将多通道和 U 型网络模型相结合，利用并行和远场声学的优势，在说话人识别系统中实现远场重叠语音检测，并探索了三种说话人嵌入方法，最终取得了最佳性能。

Feb, 2022

CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述

本文介绍了 NPU-ASLP-LiAuto（第 237 队）在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别（VSR）系统，涉及单说话人 VSR 任务的固定和开放跟踪，以及多说话人 VSR 任务的开放跟踪。实验结果表明，在多系统融合后，我们的系统在单说话人任务上实现了 34.76% 的 CER，在多说话人任务上实现了 41.06% 的 CER，在我们参与的所有三个跟踪中排名第一。

Jan, 2024

ICPR MSR 挑战赛 dun_oscar 团队系统描述

介绍了 dun_oscar 团队提交的 ICPR MSR Challenge 系统，分别描述了任务 1 - 任务 3 的三个子系统。在任务 1 中，我们开发了一个视觉系统，包括 OCR 模型、文本跟踪器和 NLP 分类器，用于区分字幕和非字幕。任务 2 中，我们采用了一个包括 18 层 AM 和 4-gram LM 的 ASR 系统，并进行了半监督学习。任务 3 中，我们采用 ASR 系统来改进视觉系统，一些错误的字幕可以通过融合模块进行纠正。

Mar, 2023

2022 年 ISCSLP 中英混合语音识别挑战赛摘要

本文介绍了 ISCSLP 2022 中英文混合自动语音识别（CSASR）挑战赛，包括训练集、开发集和测试集等数据，以及参赛队伍的表现和技术。其中获胜队伍在测试集上取得了 16.70% 的混合误差率（MER）表现，并且相对基准系统取得了 9.8% 的 MER 绝对改善。

Oct, 2022

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Dec, 2023

IARPA OpenASR21 挑战中的 THUEE 系统描述

该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统，包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。

Jun, 2022

CNSRC2022 的 SpeakIn 系统描述

在 CN-Celeb 讲者识别挑战赛中，我们使用 ResNet、RepVGG 和 TDNN 架构，采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理，并使用 AM-Softmax 算法对其进行分类，最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。

Sep, 2022