借助多尺度视频和多编码器增强唇读能力

Apr, 2024

借助多尺度视频和多编码器增强唇读能力

Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder

He Wang, Pengcheng Guo, Xucheng Wan, Huan Zhou, Lei Xie

TL;DR提出了一种改善自动唇读技术的方法，通过多尺度视频数据和多编码器来提取不同尺度的唇部特征，并在 ICME 2024 ChatCLR 挑战中取得了第二名的成绩，与官方基准相比字符错误率减少了 21.52%。

Abstract

automatic lip-reading (ALR) aims to automatically transcribe spoken content from a speaker's silent lip motion captured in video. Current mainstream lip-reading approaches only use a single visual encoder to model input videos of a single scale. In this paper, we propose to enhance lip

automatic lip-reading multi-scale video data multi-encoder resnet3d visual front-end chatclr challenge

发现论文，激发创造

大规模视觉语音识别

本文提出一个可扩展的开放词汇视觉语音识别方案，通过构建目前最大的视频对话集和一个设计的集成唇读系统，其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线，一个可扩展的深度神经网络，以将唇部视频映射到音素分布序列，并输出单词序列的生产级语音解码器，该系统以 40.9％的单词错误率成功应用在数据集上，与其他唇读方法相比更具有效性。

Jul, 2018

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

基于 Lip2Vec 的视觉语音识别（VSR）模型通过学习先验模型，将嘴唇序列的编码潜在表示映射到对应的音频潜在表示，以实现有效的文本解码。利用现成的音频语音识别（ASR）模型将生成的音频表示解码为文本，该方法在 LRS3 数据集上实现了 26 的错误率（WER），并在 VoxCeleb 测试集上保持了合理的性能，为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。

Aug, 2023

LipFormer: 基于视觉地标变换器学习从未见过说话者的唇读

该论文介绍了一种新的语音识别方法：LipFormer，它使用了视觉和标记反映的多模态特征，使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性，并且在未知的发言人上表现出出色的泛化性能。

Feb, 2023

SimulLR: 具有注意力引导自适应记忆的同时唇语识别转换器

本文提出了一种名为 SimulLR 的同时口型阅读转换器，它通过注意力引导的自适应记忆从三个方面解决了同时口型阅读的挑战。实验表明，SimulLR 相对于非同时方法在翻译速度上提速了 9.10 倍，并且获得了竞争性的结果，证明了我们提出方法的有效性。

Aug, 2021

深度唇语识别：模型比较和在线应用

本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Jun, 2018

LCANet: 级联注意力 - CTC 的端到端唇语识别

本文提出了一种基于端到端深度神经网络的 LCANet 口型识别系统，利用 3D CNN、highway network 和双向 GRU network 来捕捉短期和长期的空时信息，并采用连续的注意力 - CTC 解码器来生成输出文字，实验结果表明，与现有的最先进方法相比，所提出的系统在 GRID 语料库上取得了 1.3% 的 CER 和 3.0% 的 WER，有 12.3% 的改进。

Mar, 2018

LipNet：端对端的句子级唇读

LipNet 是一个全新的、端到端的实时语音转文字模型，它能够将连续的视频帧序列准确地映射成文本，并能够同时学习时空视觉特征和序列模型，它在句子级别的听力阅读任务上表现出色，实现了 95.2％的精度，优于先前研究的单词级准确度。

Nov, 2016

Lip2AudSpec: 从静态唇部运动视频重建语音

通过一个由自动编码器和卷积神经网络构成的模型，在无声视频中对语音信号的频谱表示进行重建，获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练，该模型能够提取出不同说话人的个体特征，具有良好的识别准确率。

Oct, 2017

基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别

本文提出使用视频变压器替换三维卷积进行视觉特征提取，从而提高音频 - 视觉自动语音识别的性能，并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明，该方法在 LRS3-TED 上取得了国际领先的性能表现。另外，在多人音频 - 视觉自动语音识别方面，该方法相对于三维卷积实现了平均降低 2% 的性能损失。

Jan, 2022