深度音视频语音识别

Sep, 2018

Deep Audio-Visual Speech Recognition

Triantafyllos Afouras, Joon Son Chung, Andrew Senior, Oriol Vinyals, Andrew Zisserman

TL;DR本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Abstract

The goal of this work is to recognise phrases and sentences being spoken by a talking face, with or without the audio. Unlike previous works that have focussed on recognising a limited number of words or phrases, we tackle lip reading as an open-world problem - unconstrained natural language sentences, and in the wild videos. Our key contributions are: (1) w

lip reading audio-visual speech recognition self-attention architecture ctc loss sequence-to-sequence loss

发现论文，激发创造

野外口唇阅读句子

本研究目的在于通过观察说话者的口型运动，并结合音频或不结合音频，识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”（WLAS）网络来学习将口腔运动视频转录为字符的方法，设计了一种课程学习策略来加速训练并减少过拟合，建立了一个视觉语音识别数据集 - “Lip Reading Sentences”（LRS）数据集，其中包含来自英国电视的超过 100,000 个自然语句，该方法优于以往所有标准嘴唇读取基准数据集的表现。

Nov, 2016

深度唇语识别：模型比较和在线应用

本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Jun, 2018

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024

大规模视觉语音识别

本文提出一个可扩展的开放词汇视觉语音识别方案，通过构建目前最大的视频对话集和一个设计的集成唇读系统，其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线，一个可扩展的深度神经网络，以将唇部视频映射到音素分布序列，并输出单词序列的生产级语音解码器，该系统以 40.9％的单词错误率成功应用在数据集上，与其他唇读方法相比更具有效性。

Jul, 2018

LIP-RTVE：西班牙连续口语的音视数据库

本文介绍了一个半自动注释的音视频数据库，用于处理自由自然的西班牙语，提供了来自西班牙电视的 13 小时数据。此外，报告了基于隐马尔可夫模型的发言人相关和发言人无关情景的基准结果，这是一种在语音技术领域广泛使用的传统范式。

Nov, 2023

基于注意力机制的视听融合在强鲁棒性自动语音识别中的应用

本文提出了一种音频视觉融合策略，该策略不仅可以超越简单的特征连接，而且可以自动地对齐两种方式，具有提高语音识别准确性的增强表示，特别适合干扰噪声环境中的识别任务，并且可以推广到许多涉及相关模态的多模态任务中。

Sep, 2018

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018

ASR 是你所需要的：用于唇读的跨模态蒸馏

本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习，通过跨媒体蒸馏方法将 Connectionist Temporal Classification（CTC）与逐帧交叉熵损失相结合，以无标注的视频数据来提高效果和速度，并在 LRS2 和 LRS3 数据集上实现了最先进的结果。

Nov, 2019

高效音视关联的 Conformer 用于鲁棒语音识别

本研究建议使用音频和视觉模态来改善基于 Efficient Conformer Connectionist Temporal Classification 架构的噪声鲁棒性，并在 LRS2 和 LRS3 数据集上进行了实验。结果表明，使用音频和视觉模态可以更好地识别存在环境噪声的语音，并显着加速训练，达到了 2.3％和 1.8％的字错误率。

Jan, 2023