适应说话者的端到端连续西班牙语视觉语音识别

Nov, 2023

适应说话者的端到端连续西班牙语视觉语音识别

Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish

David Gimeno-Gómez, Carlos-D. Martínez-Hinarejos

TL;DR利用西班牙 LIP-RTVE 数据库，本文研究了如何通过专门训练的端到端系统来改善语音识别质量，结果表明，通过演讲者适应，可以显著提高 VSR 系统的性能，并且即使只有有限的数据时，也可以达到与当前最先进技术相媲美的结果。

Abstract

Different studies have shown the importance of visual cues throughout the speech perception process. In fact, the development of audiovisual approaches has led to advances in the field of →

visual cues audiovisual approaches visual speech recognition speech technologies speaker-dependent perspective

发现论文，激发创造

LIP-RTVE：西班牙连续口语的音视数据库

本文介绍了一个半自动注释的音视频数据库，用于处理自由自然的西班牙语，提供了来自西班牙电视的 13 小时数据。此外，报告了基于隐马尔可夫模型的发言人相关和发言人无关情景的基准结果，这是一种在语音技术领域广泛使用的传统范式。

Nov, 2023

西班牙语连续唇读的视觉特征分析

我们提出了一种分析不同语音视觉特征的方法，以确定哪种方法最适合捕捉西班牙语口唇运动的特性，并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时，结果表明，在受限条件下，使用特征脸和深度特征的组合是最佳的视觉方法。

Nov, 2023

序列到序列语音识别的多模态基础

本研究提出了基于多模态的端到端自适应语音识别系统，采用卷积神经网络获取视觉信息，与传统方法相比表现优越。

Nov, 2018

野外多语言视觉语音识别

本文旨在通过视觉手势识别来实现基于嘴唇运动的语音识别，通过优化模型设计和参数，加入额外任务，并增加数据扩充，提高模型性能，实现在不同语言下超越以前的所有基于公开数据集的模型表现，并比训练基于非公开数据集的模型表现更好。

Feb, 2022

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

ViLaS: 将视觉和语言集成到自动语音识别中

提出一种多模态自动语音识别模型（ViLaS），能够同时或分别集成视觉和语言线索来帮助识别输入语音，提出一种训练策略，从而提高在模态不完整的测试场景中的性能，并创建一个包含视觉和语言线索的多模态 ASR 数据集（VSDial），探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告，调查跨模态融合方案，并对 VSDial 上的细粒度跨模态对齐进行分析。

May, 2023

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

自动说话人无关的视觉语音识别：全面调查

本研究调查了 1990 年至 2023 年间 Speaker-independent VSR 系统的演变，重点分析了数据集及预处理技术的应用，强调了发展端对端管道的必要性，同时指出了当前研究的局限性和未来方向。

Jun, 2023

CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述

本文介绍了 NPU-ASLP-LiAuto（第 237 队）在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别（VSR）系统，涉及单说话人 VSR 任务的固定和开放跟踪，以及多说话人 VSR 任务的开放跟踪。实验结果表明，在多系统融合后，我们的系统在单说话人任务上实现了 34.76% 的 CER，在多说话人任务上实现了 41.06% 的 CER，在我们参与的所有三个跟踪中排名第一。

Jan, 2024