MMJul, 2023

分层语义感知听觉头部视频生成:一个高性能的管线

TL;DR在双人对话中,听众的头部反应与发言者的头部移动构成了重要的非言语语义表达。听众头部生成任务旨在基于发言者的音频和听众的参考图像,合成反应性的听众头部视频。本文提出了一个高性能的解决方案,通过增强音频编码器模块的分层语义提取能力,改进解码器部分、渲染器和后处理模块。我们的解决方案在 ACM Multimedia 2023 会议的 ViCo@2023 Conversational Head Generation Challenge 中获得了第一名。