使用注意机制和 CTC 解码研究法式手形和唇形的动态
本文介绍一种将唇读与手势结合的多模式视觉编码系统 ——Cued Speech(CS),并在此基础上提出了一种利用统计测量方法的可解释通用模型来预测手先时间(HPT)的方法。此外,对五位说话人的视频进行了注释,并发现手先现象存在于它们的产生中,同时也证明了方法的有效性。
Jun, 2023
本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法,用于自动识别 Cued Speech(一种视觉交流工具),该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估,准确率为 70.88%,表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。
Apr, 2022
提出了一种基于 GlossDiff 框架的 Cued Speech(CS)手势生成方法,该方法通过引入 Gloss 和 Audio-driven Rhythmic Module(ARM)等新技术,实现了对 CS 手势的精细生成和节奏匹配,同时发布了第一个中文 CS 数据集。实验证明该方法在定量和定性上超越了当前的最新技术。
Apr, 2024
本文提出了一种基于说话者唇部运动的语音合成方法,通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计,该模型可以更准确、自然地模拟说话者的语音,其量化、定性评估结果表明,该方法比现有方法的可理解性提高了四倍。
May, 2020
我们提出了一种分析不同语音视觉特征的方法,以确定哪种方法最适合捕捉西班牙语口唇运动的特性,并通过这种方式来处理自动视觉语音识别任务。在使用传统的基于隐马尔可夫模型和高斯混合模型的系统进行评估时,结果表明,在受限条件下,使用特征脸和深度特征的组合是最佳的视觉方法。
Nov, 2023
本文提出了一种基于端到端深度神经网络的 LCANet 口型识别系统,利用 3D CNN、highway network 和双向 GRU network 来捕捉短期和长期的空时信息,并采用连续的注意力 - CTC 解码器来生成输出文字,实验结果表明,与现有的最先进方法相比,所提出的系统在 GRID 语料库上取得了 1.3% 的 CER 和 3.0% 的 WER,有 12.3% 的改进。
Mar, 2018
本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作,通过训练无标签视频并将我们的模型与基准方法进行量化比较,证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法,并且我们发布了一个大型的视频数据集以支持研究。
Jun, 2019
本文探讨了如何通过可观察的唇部图像序列,预测相应的舌头运动,使用自监督学习,卷积网络和长短时记忆网络模型,并通过预测未来的超声波舌头图像序列来评估模型性能,结果表明我们的模型能够生成接近真实超声波舌头图像,并将图像模态之间的匹配提高了。
Jun, 2021
本文提出了两种解决方案来解决句子级手语识别问题,并通过使用连接主义时间分类(CTC)作为两种模型的分类器层,介绍了 LRCN-based 模型和 Multi-Cue 网络的工作原理。在评估了 RWTH-PHOENIX-Weather 数据集后,作者通过进行超参数搜索,包括特征图数量、输入大小、批量大小、序列长度、LSTM 内存单元、正则化和失活等,获得了 35% 的字词错误率(WER)。
Nov, 2022