SparseVSR: 轻巧且抗噪声的视觉语音识别

Jul, 2023

SparseVSR: 轻巧且抗噪声的视觉语音识别

SparseVSR: Lightweight and Noise Robust Visual Speech Recognition

Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Alexandros Haliassos, Stavros Petridis...

TL;DR深度学习神经网络在视觉语音识别方面取得了前所未有的成功，本研究通过不同的基于幅度的修剪技术，生成了一个轻量级模型，其在视觉噪声存在的情况下表现出比其密集模型等效性能更高的水平，在 LRS3 数据集的 10％稀疏度下实现了最先进的结果，并在 70％稀疏度下优于密集等效性水平，我们在 7 种不同的视觉噪声类型上评估了我们的 50％稀疏模型，并且相对于密集等效性模型，绝对词错误率的改善超过 2％，我们的结果证实稀疏网络比密集网络对噪声更具抗干扰性。

Abstract

Recent advances in deep neural networks have achieved unprecedented success in visual speech recognition. However, there remains substantial disparity between current methods and their deployment in resource-cons

deep neural networks visual speech recognition magnitude-based pruning techniques sparse networks visual noise

发现论文，激发创造

LiteVSR：通过学习无标签数据的语音表征实现高效的视觉语音识别

该论文提出了一种新颖的资源高效方法，利用任何训练过的自动语音识别（ASR）模型生成的语音表示来进行视觉语音识别（VSR）。通过远离最近文献中流行的资源密集型趋势，我们的方法从已训练的基于 Conformer 的 ASR 模型中提取知识，在标准的 VSR 基准测试中以极少的资源利用实现竞争性的性能。仅使用未标记的音频 - 视觉数据，我们的基准模型在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率（WER）。在有限标记数据的微调之后，词错误率降至 35%（LRS2）和 45.7%（LRS3）。我们的模型可以在几天内在单个消费级 GPU 上进行训练，并能够在老旧硬件上实时进行端到端的 VSR，为实现更易于获取和高效利用资源的 VSR 方法提供了一个路径。

Dec, 2023

MSRS: 用稀疏掩码优化从零开始训练多模态语音识别模型

该研究提出了一种正则化技术，可以从头开始训练视觉和视听语音识别模型，通过学习稀疏结构并减少训练时间，同时达到竞争性的识别结果。

Jun, 2024

自动语音识别的动态稀疏神经网络

本文介绍了动态稀疏神经网络 (DSNN) 技术，该技术能够在训练后根据需要在运行时即时切换到任何预定义的稀疏度配置，有效地解决了自动语音识别 (ASR) 等场景中硬件资源限制和延迟要求不同的问题，实验结果表明，DSNN 模型的表现与单一稀疏度网络的表现相当。

May, 2020

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

鲁棒性自监督视听语音识别

本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。

Jan, 2022

高效视频超分辨率的结构化稀疏学习

本论文提出了一个名为 SSL（Structured Sparsity Learning）的结构化稀疏化学习方案，该方案可在视频超分辨率（VSR）模型中进行过滤以提高推理效率，并且能够显著优于最近的方法，实验证明了其有效性。

Jun, 2022

面向实时深度噪声抑制的高效模型

本文研究深度学习模型在语音增强方面的应用，并探讨了网络复杂度与可达到的语音质量之间的关系，考虑了网络在回声环境下的训练。研究表明，网络的复杂度是影响语音质量的一个重要因素。

Jan, 2021

利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

该论文提出了一种面向多种语言特别是对于有限标注数据的低资源语言的强大的视觉语音识别（VSR）方法，通过使用 Whisper 模型，它可以进行语言识别和基于音频的语音识别，从而在没有人工注释的情况下获得与人工注释标签相似的 VSR 性能，并提供了大规模无标注多语言数据库的自动标签。

Sep, 2023

嘈杂环境下唇读识别：通用视音位映射与转移提升音视频语音识别鲁棒性

本文提出了一种基于视觉模态的无监督噪声适应方案，使用通用的音位 - 音素映射 (UniVPM) 技术从视觉信号中恢复干净音频从而扩展 AVSR 系统的噪声鲁棒性。在公共基准测试数据集 LRS3 和 LRS2 上进行的广泛实验表明，我们的方法在各种噪声和清晰条件下都达到了最先进水平，此外在视觉语音识别任务上也优于之前的最优水平。

Jun, 2023

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024