Jul, 2021

语音到视频生成的跨模态蒸馏技术(Speech2Video: Cross-Modal Distillation for Speech to Video Generation)

TL;DR这篇研究论文介绍了一种仅基于语音生成说话脸部视频的全新方法,并提出了一种轻量级的跨模态蒸馏方法,这种方法能够从未标记的视频输入中提取出情感和身份信息,然后使用对抗生成网络将提取的特征整合到说话脸部视频片段中,实验结果表明这一提出的框架能够从语音中捕获情感表达,生成的视频具有自发的面部动作,且在情感表达方面优于已有的算法。