ICCVApr, 2022

记忆中的多模态联想桥接:从面部视频中回溯语音声音

TL;DR本文提出了一种新颖的音频 - 视觉多模态桥接框架,它可以利用音频和视觉信息,并通过 associative bridge 从记忆网络中获取目标模态表示,将其应用于唇语阅读和静音视频的语音重建,具有当前最先进性能。