计算与参数高效的多模态融合 transformer 用于示意语音识别

Jan, 2024

计算与参数高效的多模态融合 transformer 用于示意语音识别

Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition

Lei Liu, Li Liu, Haizhou Li

TL;DRCued Speech (CS) 是一种纯视觉编码方法，用于辅助听障人士通过将读唇和手势组合以使口语可见。通过提出一种名为 Economical Cued Speech Fusion Transformer（EcoCued）的计算和参数高效的多模态融合变压器模型，该论文改进了自动 CS 识别（ACSR）的识别准确性和计算效率。

Abstract

cued speech (CS) is a pure visual coding method used by hearing-impaired people that combines lip reading with several specific hand shapes to make the spoken language visible. automatic cs recognition (ACSR) see

cued speech automatic cs recognition multi-modal fusion attention mechanism economical cued speech fusion transformer

发现论文，激发创造

甩手语识别的跨模态相互学习

该研究提出了一种基于变压器的跨模态相互学习框架，用于提高 Cued Speech 系统的自动识别性能，并在中文、法语和英语语言中取得了显着的识别性能提升。

Dec, 2022

使用预训练视觉特征提取器和约束 CTC 解码的提示语音识别多流神经网络结构

本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法，用于自动识别 Cued Speech（一种视觉交流工具），该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估，准确率为 70.88％，表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。

Apr, 2022

音频文本分类的级联交叉模态 Transformer

利用多模态表示，通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言，结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务，该模型在 ACM Multimedia 2023 计算语音学挑战中获得不错的性能，并在 Speech Commands v2 和 HarperValleyBank 对话数据集上超过了之前的研究成果。

Jan, 2024

一种基于多 Cuer 语料库的适用于提示性语言重同步的新型可解释且具有泛化能力的模型

本文介绍一种将唇读与手势结合的多模式视觉编码系统 ——Cued Speech（CS），并在此基础上提出了一种利用统计测量方法的可解释通用模型来预测手先时间（HPT）的方法。此外，对五位说话人的视频进行了注释，并发现手先现象存在于它们的产生中，同时也证明了方法的有效性。

Jun, 2023

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

协同双重注意力的音视频语音增强与面部线索

通过利用人脸线索，特别是唇部区域以外的面部区域，来提高语音视觉增强的鲁棒性。

Nov, 2023

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

判别式多模态语音识别

本文提出了一种基于视听的两阶段语音识别模型，该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率，同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能，实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升，表明 AE-MSR 的必要性和有效性。

May, 2020

基于混合 CTC / 注意力架构的音视频语音识别

本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型，并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点，并且在噪声环境下表现出色，是当前状态下最新的结果。

Sep, 2018

混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别

通过引入多语种音视频语音识别模型和快速调整器模型，提高了模型性能和音频噪音稳健性。在多语种数据集上进行训练，达到了领先水平，并在 MuAViC 基准测试中显著减少了平均识别错误率。

Mar, 2024