ACLFeb, 2022

利用单模态自监督学习实现多模态音视频语音识别

TL;DR本研究旨在通过使用未经标注的单模态数据和大规模的自监督学习来提高多模态音频 - 视觉语音识别,该方法在实验中表现出良好的效果,取得了相对改善 30% 的优越结果。