Dec, 2023
AV2AV: 直接音频 - 视觉语音到音频 - 视觉语音翻译与统一音频 - 视觉语音表示
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation
Jeongsoo Choi, Se Jin Park, Minsu Kim, Yong Man Ro
TL;DR该论文提出了一种新颖的直接音频 - 视觉转换技术,将输入和输出的系统处理音频和视觉语音,从而实现具有同步嘴部运动的实时对话体验,提高口译系统的鲁棒性,并利用自我监督学习来进行训练,来缓解无对应数据集的问题,并提出了一个能够生成音频和视频的 AV-Renderer。