看能增强听:使用图像恢复丢失的语音
本篇论文研究了在嘈杂的情况下,如何通过视觉上下文提升语音识别的准确性,并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力,结论显示在一定程度上可提升 ASR 系统的能力。
Oct, 2020
提出一种多模态自动语音识别模型(ViLaS),能够同时或分别集成视觉和语言线索来帮助识别输入语音,提出一种训练策略,从而提高在模态不完整的测试场景中的性能,并创建一个包含视觉和语言线索的多模态 ASR 数据集(VSDial),探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告,调查跨模态融合方案,并对 VSDial 上的细粒度跨模态对齐进行分析。
May, 2023
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
Feb, 2023
本研究致力于解决利用视觉信号来提高语音识别(ASR)的问题,探讨了一种基于自监督预训练的文本视频嵌入模型的视觉上下文感知 ASR 方法,该方法包括多流注意力结构和熟思(deliberation)模型,利用视觉信息的熟思模型比多流模型在干扰噪声下提高了语音识别正确率和恢复被屏蔽单词的准确率。
Nov, 2020
本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。
Jun, 2023
本文介绍了一种利用视觉信息,通过新的解码器偏置技术将机器人的语音识别能力改进来识别含有可见实体描述的口语,以提高自动语音识别系统在机器人上的鲁棒性能,并取得了 %59 的相对错误率降低。
Oct, 2022
本文提出了一种基于视听的两阶段语音识别模型,该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率,同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能,实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升,表明 AE-MSR 的必要性和有效性。
May, 2020
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。
Nov, 2018
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020