使用注意机制和 CTC 解码研究法式手形和唇形的动态

Jun, 2023

使用注意机制和 CTC 解码研究法式手形和唇形的动态

Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding

Sanjana Sankar, Denis Beautemps, Frédéric Elisei, Olivier Perrotin, Thomas Hueber

TL;DR本研究利用神经网络的关注机制探究单一讲话者手部和口部在特定语境下的动态关系，以及基于该关系为法语 Cued Speech 实现单词识别基准数据集的建立。

Abstract

Hard of hearing or profoundly deaf people make use of cued speech (cs) as a communication tool to understand spoken language. By delivering cues that are relevant to the →

cued speech cs neural network phonetic information word-level recognition

发现论文，激发创造

一种基于多 Cuer 语料库的适用于提示性语言重同步的新型可解释且具有泛化能力的模型

本文介绍一种将唇读与手势结合的多模式视觉编码系统 ——Cued Speech（CS），并在此基础上提出了一种利用统计测量方法的可解释通用模型来预测手先时间（HPT）的方法。此外，对五位说话人的视频进行了注释，并发现手先现象存在于它们的产生中，同时也证明了方法的有效性。

Jun, 2023

使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法，用于自动识别 Cued Speech（一种视觉交流工具），该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估，准确率为 70.88％，表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。

Apr, 2022

超越障碍的桥梁：基于词汇提醒的细粒度提示手势生成与扩散模型

提出了一种基于 GlossDiff 框架的 Cued Speech（CS）手势生成方法，该方法通过引入 Gloss 和 Audio-driven Rhythmic Module（ARM）等新技术，实现了对 CS 手势的精细生成和节奏匹配，同时发布了第一个中文 CS 数据集。实验证明该方法在定量和定性上超越了当前的最新技术。

Apr, 2024

学习个别讲话风格以实现准确的唇读语音合成

本文提出了一种基于说话者唇部运动的语音合成方法，通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计，该模型可以更准确、自然地模拟说话者的语音，其量化、定性评估结果表明，该方法比现有方法的可理解性提高了四倍。

May, 2020

西班牙语连续唇读的视觉特征分析

我们提出了一种分析不同语音视觉特征的方法，以确定哪种方法最适合捕捉西班牙语口唇运动的特性，并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时，结果表明，在受限条件下，使用特征脸和深度特征的组合是最佳的视觉方法。

Nov, 2023

LCANet: 级联注意力 - CTC 的端到端唇语识别

本文提出了一种基于端到端深度神经网络的 LCANet 口型识别系统，利用 3D CNN、highway network 和双向 GRU network 来捕捉短期和长期的空时信息，并采用连续的注意力 - CTC 解码器来生成输出文字，实验结果表明，与现有的最先进方法相比，所提出的系统在 GRID 语料库上取得了 1.3% 的 CER 和 3.0% 的 WER，有 12.3% 的改进。

Mar, 2018

甩手语识别的跨模态相互学习

该研究提出了一种基于变压器的跨模态相互学习框架，用于提高 Cued Speech 系统的自动识别性能，并在中文、法语和英语语言中取得了显着的识别性能提升。

Dec, 2022

学习个体交谈手势风格

本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作，通过训练无标签视频并将我们的模型与基准方法进行量化比较，证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法，并且我们发布了一个大型的视频数据集以支持研究。

Jun, 2019

利用自监督学习和注意力机制改进通过唇图像重建的超声舌图像

本文探讨了如何通过可观察的唇部图像序列，预测相应的舌头运动，使用自监督学习，卷积网络和长短时记忆网络模型，并通过预测未来的超声波舌头图像序列来评估模型性能，结果表明我们的模型能够生成接近真实超声波舌头图像，并将图像模态之间的匹配提高了。

Jun, 2021

基于句子级的手语识别框架

本文提出了两种解决方案来解决句子级手语识别问题，并通过使用连接主义时间分类（CTC）作为两种模型的分类器层，介绍了 LRCN-based 模型和 Multi-Cue 网络的工作原理。在评估了 RWTH-PHOENIX-Weather 数据集后，作者通过进行超参数搜索，包括特征图数量、输入大小、批量大小、序列长度、LSTM 内存单元、正则化和失活等，获得了 35% 的字词错误率（WER）。

Nov, 2022