BriefGPT.xyz
Ask
alpha
关键词
audio-visual speech recognition
搜索结果 - 24
鲁棒性自监督视听语音识别
本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架,利用 LRS3 数据集的少量标记数据,在噪音干扰的情况下提高了超过 50% 的性能,并且比基于音频的模型将词错误率减少了 75% 以上。
PDF
3 years ago
音视频语音识别的循环神经网络转录器
本研究提出了一种基于循环神经网络转录者(RNN-T)架构的大规模视音频语音识别系统,并通过比较语音,视觉和视听系统在两个大词汇测试集上的表现,以及在带噪声和重叠的人工干扰的数据上的表现,突显了视觉模态的贡献。据我们所知,我们的系统显著改善了
→
PDF
5 years ago
端到端音视频语音识别的模态注意力
该研究提出了一种基于多模态注意力的音视频语音识别方法,该方法使用了最先进的 Seq2seq 架构,基于它们的重要性自动学习了来自两种模态的混合表示,并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高,相比传统的特征级联方法
→
PDF
6 years ago
深度音视频语音识别
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子,我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别,并研究唇语识别在有噪音的情况下与音频识别的互补性,同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据
→
PDF
6 years ago
Prev
Next