audio-visual speech recognition | BriefGPT

关键词audio-visual speech recognition

搜索结果 - 24

鲁棒性自监督视听语音识别
本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架，利用 LRS3 数据集的少量标记数据，在噪音干扰的情况下提高了超过 50% 的性能，并且比基于音频的模型将词错误率减少了 75% 以上。
PDF3 years ago
音视频语音识别的循环神经网络转录器
本研究提出了一种基于循环神经网络转录者（RNN-T）架构的大规模视音频语音识别系统，并通过比较语音，视觉和视听系统在两个大词汇测试集上的表现，以及在带噪声和重叠的人工干扰的数据上的表现，突显了视觉模态的贡献。据我们所知，我们的系统显著改善了
PDF5 years ago
端到端音视频语音识别的模态注意力
该研究提出了一种基于多模态注意力的音视频语音识别方法，该方法使用了最先进的 Seq2seq 架构，基于它们的重要性自动学习了来自两种模态的混合表示，并在不同信噪比下相对于单独的音频模态获得了 2% 到 36% 的提高，相比传统的特征级联方法
PDF6 years ago
深度音视频语音识别
本论文旨在识别带有或不带有音频的说话者嘴唇所述的短语和句子，我们提出了使用自注意力机制的 CTC 和序列到序列两种模型进行唇语识别，并研究唇语识别在有噪音的情况下与音频识别的互补性，同时我们介绍并公开发布了英国电视上成千上万自然语言的新数据
PDF6 years ago