关键词audio-visual speech recognition
搜索结果 - 24
- Whisper-Flamingo: 集成视觉特征于 Whisper 中用于音频 - 视觉语音识别和翻译PDF20 days ago
- ViSpeR: 多语言音视频语音识别PDFa month ago
- 混合 CTC/RNN-T 快速 Conformer 的多语言视听语音识别PDF4 months ago
- CVPR关于辍学引发的韧性研究,对于音频视觉语音识别中缺失视频帧的影响PDF4 months ago
- SlideAVSR:用于视听语音识别的论文解释视频数据集PDF6 months ago
- MLCA-AVSR:基于多层交叉注意力融合的音视频语音识别PDF6 months ago
- AV-CPL: 面向音视频语音识别的连续伪标记PDF9 months ago
- 通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别PDFa year ago
- ACL嘈杂环境下唇读识别:通用视音位映射与转移提升音视频语音识别鲁棒性PDFa year ago
- ACLMIR-GAN:用对抗网络提炼用于音视频语音识别的帧层次模态不变表示PDFa year ago
- MAVD:首个带深度信息的开放式大规模普通话视听数据集PDFa year ago
- 发掘 Web 规模语音模型的潜在能力,实现零样本任务的普适性PDFa year ago
- IJCAI跨模态全局交互与局部对齐的视听语音识别PDFa year ago
- CVPR通过视觉损坏建模和可靠性评分,实现强大的视听口语识别PDFa year ago
- AV-data2vec:具有语境目标表示的自监督学习音视频语音表征PDFa year ago
- AAAI通过强化学习利用语言和视觉的模态特定表征进行音视频语音识别PDF2 years ago
- VATLM:基于联合掩码预测的视听文字预训练方法,用于语音表示学习PDF2 years ago
- 基于视觉感知的音频特征增强,用于稳健的端对端音视频语音识别PDF2 years ago
- ACL利用单模态自监督学习实现多模态音视频语音识别PDF2 years ago
- CI-AVSR: 一份用于汽车指令识别的粤语音频视觉语音数据集PDF2 years ago
Prev