ACLFeb, 2022
利用单模态自监督学习实现多模态音视频语音识别
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition
Xichen Pan, Peiyu Chen, Yichen Gong, Helong Zhou, Xinbing Wang...
TL;DR本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别,该方法在实验中表现出良好的效果,取得了相对改善 30% 的优越结果。