2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

Dec, 2023

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

The GUA-Speech System Description for CNVSRC Challenge 2023

Shengqiang Li, Chao Lei, Baozhong Ma, Binbin Zhang, Fuping Pan

TL;DR这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Abstract

This study describes our system for Task 1 Single-speaker Visual Speech Recognition (VSR) fixed track in the Chinese Continuous Visual Speech Recognition Challenge (CNVSRC) 2023. Specifically, we use intermediate connectionist temporal classification (Inter CTC) residual modules to relax the conditional independence assumption of CTC in our model. Then we us

single-speaker visual speech recognition chinese continuous visual speech recognition challenge inter ctc residual modules bi-transformer decoder recurrent neural network language model

发现论文，激发创造

CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述

本文介绍了 NPU-ASLP-LiAuto（第 237 队）在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别（VSR）系统，涉及单说话人 VSR 任务的固定和开放跟踪，以及多说话人 VSR 任务的开放跟踪。实验结果表明，在多系统融合后，我们的系统在单说话人任务上实现了 34.76% 的 CER，在多说话人任务上实现了 41.06% 的 CER，在我们参与的所有三个跟踪中排名第一。

Jan, 2024

CNVSRC 2023：首届中国连续视觉语音识别挑战

第一次的中国连续视觉语音识别挑战旨在评估大词汇量连续视觉语音识别在两个任务上的性能：（1）针对特定说话人的单一说话人语音识别和（2）针对一组已注册说话人的多说话人语音识别。此次挑战取得了非常成功的结果，最佳提交结果明显优于基准，尤其是在单一说话人任务中。本文全面回顾了这个挑战，包括数据概况、任务规范和基准系统的构建。同时，它总结了参赛系统所采用的代表性技术，并突出了最有效的方法。有关此挑战的更多信息和资源可通过官方网站访问此 http URL。

Jun, 2024

CNSRC2022 的 SpeakIn 系统描述

在 CN-Celeb 讲者识别挑战赛中，我们使用 ResNet、RepVGG 和 TDNN 架构，采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理，并使用 AM-Softmax 算法对其进行分类，最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。

Sep, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法，用于自动识别 Cued Speech（一种视觉交流工具），该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估，准确率为 70.88％，表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。

Apr, 2022

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

全神经语音识别的进展

本文提出了一种基于 CTC 的全神经网络语音识别器的设计方法，包括新的符号存储库、基于迭代的 CTC 方法、稳定化方法和初始化方法等，使用 NIST 2000 会话电话测试集进行了评估，结果表明该系统明显超过了先前发布的相似系统的性能，无需使用外部语言模型和解码技术。

Sep, 2016

基于循环神经网络的逐字递增语音识别

本文提出了一种基于 RNN 的字符级增量语音识别系统，使用 CTC 进行端到端训练，在短时间内响应语音输入，通过基于树的在线 Beam Search 算法实现字级别的识别，该系统不仅能够响应不断输入的语音，还能根据发音来发音对语音的字词进行识别。在训练数据集上，该模型将字错率降低至 8.90％。

Jan, 2016

ICASSP2024 ICMC-ASR 大赛的 NUS-HLT 系统

我们团队在 ICMC-ASR 挑战赛的两个方向上付出了努力，包括多通道前端增强和辨析、训练数据增强、多通道分支的语音识别模型，经测试，在官方 Eval1 和 Eval2 数据集上，我们的最佳系统相对于官方基准系统提高了 34.3% 的 CER 和 56.5% 的 cpCER。

Dec, 2023

基于音素、字素和多语言 CTC 的语音识别

该论文研究了通过使用其他语言的数据和建立多语言系统来处理自动语音识别中数据稀缺性的问题，使用循环神经网络和连接时序分类等技术进行训练，提高了多语言系统的性能，缩小了单语和多语系统之间的差距。

Nov, 2017