LRW-1000：野外唇语识别自然分布大规模基准测试

Oct, 2018

LRW-1000：野外唇语识别自然分布大规模基准测试

LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild

Shuang Yang, Yuanhang Zhang, Dalu Feng, Mingmin Yang, Chenhao Wang...

TL;DR本文介绍了一个自然分布的大型口型识别基准数据库 LRW-1000，该数据库包含来自 2000 多个个体说话者的 718,098 个样本，其中每个类都对应一个普通话单词的音节，同时评估了一些利用该数据集的典型口型识别方法和结果分析。

Abstract

Large-scale datasets have successively proven their fundamental importance in several research fields, especially for early progress in some emerging topics. In this paper, we focus on the problem of visual speech recognition, also known as →

visual speech recognition lipreading large-scale dataset lrw-1000 mandarin

发现论文，激发创造

大规模视觉语音识别

本文提出一个可扩展的开放词汇视觉语音识别方案，通过构建目前最大的视频对话集和一个设计的集成唇读系统，其中包括一个用于映射原始视频到稳定的唇部视频和音素序列的视频处理流水线，一个可扩展的深度神经网络，以将唇部视频映射到音素分布序列，并输出单词序列的生产级语音解码器，该系统以 40.9％的单词错误率成功应用在数据集上，与其他唇读方法相比更具有效性。

Jul, 2018

用于自动唇读系统和迁移学习的多模式德语数据集

本文提出了 GLips 数据集，其中包含 25 万个公共可用的视频，用于面部讲话者的单词级别的唇语阅读，作者探究了唇语阅读是否具有语言无关的特征，以便可以利用数据集来提高唇语阅读模型。

Feb, 2022

野外口唇阅读句子

本研究目的在于通过观察说话者的口型运动，并结合音频或不结合音频，识别出单词词组和句子。我们提出了一种 “看、听、关注和拼写”（WLAS）网络来学习将口腔运动视频转录为字符的方法，设计了一种课程学习策略来加速训练并减少过拟合，建立了一个视觉语音识别数据集 - “Lip Reading Sentences”（LRS）数据集，其中包含来自英国电视的超过 100,000 个自然语句，该方法优于以往所有标准嘴唇读取基准数据集的表现。

Nov, 2016

基于字级别的波斯语唇语数据集

提供了一个新的有着 24.4 万视频和约 1800 名演讲者的真实情境下的波斯语单词级别的唇语数据集，并使用 AV-HuBERT 模型进行特征提取，该方法在我们的数据集上获得了显著更好的性能。

Apr, 2023

WenetSpeech：一个拥有 10,000 多小时的多领域普通话语音语料库用于语音识别

WenetSpeech 是当前最大的开源普通话语音语料库，其包含 10000 小时以上高质量语音数据、2400 小时弱标注语音数据以及大约 10000 小时无标注语音数据，以及采集自多个场景下的数据，采用 OCR 及高质量 ASR 转录进行语音文本对齐，利用自研的端到端标签错误检测方法进一步筛选数据后，提供了工具集如 Kaldi、ESPnet 等，并基于三个不同测试集对其进行了基准测试。

Oct, 2021

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

视频中基于单词的深度手语识别：一个新的大规模数据集和方法比较

本文介绍了一个新的大规模美国手语单词语义（WLASL）数据集，并实现了基于外观和人体姿态的 2 个模型，以及提出了一种新的基于姿态的时态图卷积网络（Pose-TGCN）方法，同时模拟人体姿态轨迹中的空间和时间依赖关系，为手语识别研究提供了一个有价值的基准实验平台。

Oct, 2019

基于视觉注意力的子词级唇读技术

该研究提出了一种关注视觉嘴唇读取的独特挑战，采用定制的基于注意力和亚词单元的方法，构建视觉嘴唇读取模型和视觉语音检测模型，并在公共数据集上实现了当今最优秀的结果，甚至超过工业声音数据集训练模型大约一个数量级的数据。

Oct, 2021

MS-ASL：用于理解美国手语的大规模数据集和基准

本文提出了一个包括 25,000 个有注释视频的美国手语数据集，通过 I3D 架构的应用，实现了对 1000 个手势的无限制语境下的识别。

Dec, 2018

LRS3-TED: 用于视觉语音识别的大规模数据集

介绍一个包含 TED 演讲视频中的面部轨迹，字幕和单词对齐信息的大规模新型多模态数据集，适用于视觉和视听语音识别的研究。

Sep, 2018