多粒度时空建模用于唇读

Aug, 2019

Multi-Grained Spatio-temporal Modeling for Lip-reading

Chenhao Wang

TL;DR本文提出了一种基于多级时空建模法的新型唇读模型，采用细粒度和中等粒度特征提取方法，结合时域注意理解整个输入序列，该模型在挑战的单词级唇读基准测试中表现出良好的效果。

Abstract

lip-reading aims to recognize speech content from videos via visual analysis of speakers' lip movements. This is a challenging task due to the existence of homophemes-words which involve identical or highly simil

lip-reading spatio-temporal modeling convlstm speech recognition visual analysis

发现论文，激发创造

LipNet：端对端的句子级唇读

LipNet 是一个全新的、端到端的实时语音转文字模型，它能够将连续的视频帧序列准确地映射成文本，并能够同时学习时空视觉特征和序列模型，它在句子级别的听力阅读任务上表现出色，实现了 95.2％的精度，优于先前研究的单词级准确度。

Nov, 2016

MTGA: 多视角时间粒度对齐聚合在基于事件的唇读中的应用

利用说话人的嘴唇运动的视觉信息来识别单词和句子的口型识别技术，通过多视角时间粒度对齐聚合（MTGA）框架，结合时间分段的体素图列表、时空融合模块、和位置编码的时间聚合模块，本文提出的方法优于基于事件和基于视频的口型识别方法。

Apr, 2024

深度唇语识别：模型比较和在线应用

本文旨在发展最先进的口型阅读模型，分别使用 LSTM 递归模型、全卷积模型和最近提出的 Transformer 模型，并通过 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集的实验表明了本研究的最佳成果。

Jun, 2018

使用长短时记忆网络进行唇读

本文介绍了利用神经网络从仅有的视觉信息（面部）中识别言语并实现唇读的方法，通过使用前馈和循环神经网络层（即 LSTM）堆叠成单一结构，并对其进行训练，成功地实现了比传统方法更高的识别准确性。

Jan, 2016

端到端的多视角唇读

本研究提出使用双向长短时记忆（BLSTM）网络的多视角口型识别系统，在直接从不同口型图像姿势中提取特征的基础上，同时学习多视角的视觉特征和语音分类。通过在 OuluVS2 数据库上进行测试，最佳三种视角模型较现有多视图最新性能提高 10.5％，最大分类精度为 96.9％。

Sep, 2017

基于地标指导的跨说话人唇读技术与互信息规范化

本研究提出了一种训练鲁棒性的唇读模型的方法，通过利用唇部地标引导的细粒度视觉线索，减少与特定说话者相关的外观特征，并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。

Mar, 2024

使用时间卷积网络进行唇读

本研究旨在改进当前用于野外孤立词识别的最先进模型，首先通过引入 TCN 替代 BGRU 层，简化训练过程，其次，提出变长度数据增强技术，最终在两个最大的公开数据集上展示了 1.2% 和 3.2% 的性能增益，这是最新的最先进性能。

Jan, 2020

LipFormer: 基于视觉地标变换器学习从未见过说话者的唇读

该论文介绍了一种新的语音识别方法：LipFormer，它使用了视觉和标记反映的多模态特征，使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性，并且在未知的发言人上表现出出色的泛化性能。

Feb, 2023

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

利用学习和结合一般语音知识和特定语言知识来进行低资源语言的唇读

该论文提出了一种针对低资源语言的新型唇语识别框架，通过学习通用语音知识和特定语言知识，可以高效地开发适用于低资源语言的唇语识别模型。

Aug, 2023