Dec, 2023

AV2AV: 直接音频 - 视觉语音到音频 - 视觉语音翻译与统一音频 - 视觉语音表示

TL;DR该论文提出了一种新颖的直接音频 - 视觉转换技术,将输入和输出的系统处理音频和视觉语音,从而实现具有同步嘴部运动的实时对话体验,提高口译系统的鲁棒性,并利用自我监督学习来进行训练,来缓解无对应数据集的问题,并提出了一个能够生成音频和视频的 AV-Renderer。