Oct, 2022

Pre-Avatar:使用漫谈头像的自动演示生成框架

TL;DR本文提出了一种名为 Pre-Avatar 的系统,通过一张正面照片和 3 分钟的语音记录,生成一个具有说话者形象的演示视频,核心技术包括用户体验界面 (UEI)、说话人形象生成、少样本文本到语音 (TTS) 等几个子模块。用户只需要用不同的注释替换幻灯片,即可生成新视频,这将降低沟通材料的制作和复制成本。