CNVSRC 2023：首届中国连续视觉语音识别挑战

Jun, 2024

CNVSRC 2023：首届中国连续视觉语音识别挑战

CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge

Chen Chen, Zehua Liu, Xiaolou Li, Lantian Li, Dong Wang

TL;DR第一次的中国连续视觉语音识别挑战旨在评估大词汇量连续视觉语音识别在两个任务上的性能：（1）针对特定说话人的单一说话人语音识别和（2）针对一组已注册说话人的多说话人语音识别。此次挑战取得了非常成功的结果，最佳提交结果明显优于基准，尤其是在单一说话人任务中。本文全面回顾了这个挑战，包括数据概况、任务规范和基准系统的构建。同时，它总结了参赛系统所采用的代表性技术，并突出了最有效的方法。有关此挑战的更多信息和资源可通过官方网站访问此 http URL。

Abstract

The first chinese continuous visual speech recognition challenge aimed to probe the performance of large vocabulary continuous visual speech recognition (LVC-VSR) on two tasks: (1) →

chinese continuous visual speech recognition challenge large vocabulary continuous visual speech recognition single-speaker vsr multi-speaker vsr baseline system construction

发现论文，激发创造

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Dec, 2023

CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述

本文介绍了 NPU-ASLP-LiAuto（第 237 队）在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别（VSR）系统，涉及单说话人 VSR 任务的固定和开放跟踪，以及多说话人 VSR 任务的开放跟踪。实验结果表明，在多系统融合后，我们的系统在单说话人任务上实现了 34.76% 的 CER，在多说话人任务上实现了 41.06% 的 CER，在我们参与的所有三个跟踪中排名第一。

Jan, 2024

CNSRC2022 的 SpeakIn 系统描述

在 CN-Celeb 讲者识别挑战赛中，我们使用 ResNet、RepVGG 和 TDNN 架构，采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理，并使用 AM-Softmax 算法对其进行分类，最终取得了 SV 任务无榜首、有榜首以及 SR 任务的三个不同奖项。

Sep, 2022

ViSpeR: 多语言音视频语音识别

该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上，对音视频语音识别（AVSR）进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练，在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争力。该研究通过提供数据集和模型给研究社区，旨在为音视频语音识别领域的进一步研究和探索奠定基础。

May, 2024

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

LiteVSR：通过学习无标签数据的语音表征实现高效的视觉语音识别

该论文提出了一种新颖的资源高效方法，利用任何训练过的自动语音识别（ASR）模型生成的语音表示来进行视觉语音识别（VSR）。通过远离最近文献中流行的资源密集型趋势，我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识，在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据，我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率（WER）。在有限标记数据的微调之后，词错误率降至 35%（LRS2）和 45.7%（LRS3）。我们的模型可以在几天内在单个消费级 GPU 上进行训练，并能够在老旧硬件上实时进行端到端的 VSR，为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。

Dec, 2023

CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集

本文提出了一个新的中文粤语数据集 - Cantonese In-car Audio-Visual Speech Recognition (CI-AVSR)，用于研究车内指令识别。使用视觉和音频数据来识别汽车相关的指令，并采用常见的车内背景噪声进行数据增强来模拟真实环境，同时还实现了两种多模态基线以证明数据集的有效性和可行性。

Jan, 2022

适应说话者的端到端连续西班牙语视觉语音识别

利用西班牙 LIP-RTVE 数据库，本文研究了如何通过专门训练的端到端系统来改善语音识别质量，结果表明，通过演讲者适应，可以显著提高 VSR 系统的性能，并且即使只有有限的数据时，也可以达到与当前最先进技术相媲美的结果。

Nov, 2023

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018