序列到序列语音识别的多模态基础
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。
Nov, 2018
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法在干净和嘈杂的数据上的效果。
Apr, 2018
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
Feb, 2023
本研究探讨了利用图像确立语音识别模型中文字的语义含义,以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能,增强语音信号对语音识别的帮助
Feb, 2020
本文介绍深度多模态学习的方法,用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明,使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。
Jan, 2015
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020
本文提出了一种基于视听的两阶段语音识别模型,该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率,同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能,实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升,表明 AE-MSR 的必要性和有效性。
May, 2020
利用西班牙 LIP-RTVE 数据库,本文研究了如何通过专门训练的端到端系统来改善语音识别质量,结果表明,通过演讲者适应,可以显著提高 VSR 系统的性能,并且即使只有有限的数据时,也可以达到与当前最先进技术相媲美的结果。
Nov, 2023
提出一种多模态自动语音识别模型(ViLaS),能够同时或分别集成视觉和语言线索来帮助识别输入语音,提出一种训练策略,从而提高在模态不完整的测试场景中的性能,并创建一个包含视觉和语言线索的多模态 ASR 数据集(VSDial),探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告,调查跨模态融合方案,并对 VSDial 上的细粒度跨模态对齐进行分析。
May, 2023
本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型,该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型,并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。
Feb, 2018