使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

Apr, 2022

使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

Multistream neural architectures for cued-speech recognition using a pre-trained visual feature extractor and constrained CTC decoding

PDF

Sanjana Sankar, Denis Beautemps, Thomas Hueber

TL;DR本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法，用于自动识别 Cued Speech（一种视觉交流工具），该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估，准确率为 70.88％，表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。

Abstract

This paper proposes a simple and effective approach for automatic recognition of cued speech (CS), a visual communication tool that helps people with hearing impairment to understand spoken language with the help

cued speech visual communication hand gestures phonetic decoder recurrent neural network

发现论文，激发创造

一种基于多 Cuer 语料库的适用于提示性语言重同步的新型可解释且具有泛化能力的模型

本文介绍一种将唇读与手势结合的多模式视觉编码系统 ——Cued Speech（CS），并在此基础上提出了一种利用统计测量方法的可解释通用模型来预测手先时间（HPT）的方法。此外，对五位说话人的视频进行了注释，并发现手先现象存在于它们的产生中，同时也证明了方法的有效性。

Jun, 2023

使用注意机制和 CTC 解码研究法式手形和唇形的动态

本研究利用神经网络的关注机制探究单一讲话者手部和口部在特定语境下的动态关系，以及基于该关系为法语 Cued Speech 实现单词识别基准数据集的建立。

Jun, 2023

计算与参数高效的多模态融合 transformer 用于示意语音识别

Cued Speech (CS) 是一种纯视觉编码方法，用于辅助听障人士通过将读唇和手势组合以使口语可见。通过提出一种名为 Economical Cued Speech Fusion Transformer（EcoCued）的计算和参数高效的多模态融合变压器模型，该论文改进了自动 CS 识别（ACSR）的识别准确性和计算效率。

Jan, 2024

甩手语识别的跨模态相互学习

该研究提出了一种基于变压器的跨模态相互学习框架，用于提高 Cued Speech 系统的自动识别性能，并在中文、法语和英语语言中取得了显着的识别性能提升。

Dec, 2022

深度音视频语音识别

本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据集 LRS2-BBC，我们建立的模型在实验中的表现均超过了以前的相关工作。

Sep, 2018

全神经语音识别的进展

本文提出了一种基于 CTC 的全神经网络语音识别器的设计方法，包括新的符号存储库、基于迭代的 CTC 方法、稳定化方法和初始化方法等，使用 NIST 2000 会话电话测试集进行了评估，结果表明该系统明显超过了先前发布的相似系统的性能，无需使用外部语言模型和解码技术。

Sep, 2016

CNVSRC 2023 中的视觉语音识别的 NPU-ASLP-LiAuto 系统描述

本文介绍了 NPU-ASLP-LiAuto（第 237 队）在 2023 年中国连续视觉语音识别挑战赛中引入的视觉语音识别（VSR）系统，涉及单说话人 VSR 任务的固定和开放跟踪，以及多说话人 VSR 任务的开放跟踪。实验结果表明，在多系统融合后，我们的系统在单说话人任务上实现了 34.76% 的 CER，在多说话人任务上实现了 41.06% 的 CER，在我们参与的所有三个跟踪中排名第一。

Jan, 2024

2023 CNVSRC 挑战赛 GUA-Speech 系统介绍

这项研究描述了我们在 2023 年中国持续视觉语音识别挑战赛中针对任务 1 单说话者视觉语音识别（VSR）固定轨道的系统。具体来说，我们在模型中使用中间连接主义时间分类（Inter CTC）残差模块来放宽 CTC 的条件独立性假设，然后使用双变压器解码器使模型能够捕捉过去和未来的上下文信息。此外，我们使用汉字作为建模单元来提高模型的识别准确性。最后，在推断阶段，我们使用了递归神经网络语言模型（RNNLM）进行浅层融合。实验表明，我们的系统在评估集上的字符错误率（CER）为 38.09%，相对于官方基准线减少了 21.63%，并在挑战赛中获得了第二名。

Dec, 2023

VCSE: 时域视觉语境说话人提取网络

本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀

Oct, 2022

LCANet: 级联注意力 - CTC 的端到端唇语识别

本文提出了一种基于端到端深度神经网络的 LCANet 口型识别系统，利用 3D CNN、highway network 和双向 GRU network 来捕捉短期和长期的空时信息，并采用连续的注意力 - CTC 解码器来生成输出文字，实验结果表明，与现有的最先进方法相比，所提出的系统在 GRID 语料库上取得了 1.3% 的 CER 和 3.0% 的 WER，有 12.3% 的改进。

Mar, 2018