深度多模态学习用于音视频语音识别
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法,在清洁和嘈杂的条件下均能获得更好的识别性能,可以轻松地推广到其他多模态任务中。
Nov, 2018
本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型,该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型,并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。
Feb, 2018
本文提出了一种直观的机制,通过多个阶段融合特征和注意力以很好地集成多模式特征,以解决音频视觉场景感知对话任务,并进一步分析了各种最先进的模型在该任务上的泛化能力。
Aug, 2019
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020
本文提出了一种基于视听的两阶段语音识别模型,该模型利用视唇运动信息清晰地区分出背景噪音并提升语音识别率,同时用 P3D 和 EleAtt-GRU 技术进一步提高模型性能,实验证明该模型在 LRS3-TED 和 LRW 数据集上均取得了较大的性能提升,表明 AE-MSR 的必要性和有效性。
May, 2020
本文提出了一种音频视觉融合模型,该模型利用注意机制动态地结合单独的音频和视觉模型的输出来识别声音,实验证明该模型在音频场景分析和机器感知上比单模和多模融合模型具有更好的效果。
May, 2020
提出了一种多层交叉注意力融合的视听语音识别方法,通过在不同的音频 / 视觉编码器层级融合各种模态,实现了每种模态的表示学习,实验结果表明该方法在 MISP2022-AVSR 挑战数据集上达到了新的拼接最小排列字符错误率 (cpCER) 为 30.57% 的性能,并相对于前期系统获得了最多 3.17% 的相对改进,同时超过了第一名系统,获得了该数据集上的新的最先进 cpCER 为 29.13%。
Jan, 2024