响应式听觉头部生成:一个基准数据集和基准模型
该研究提出了一种新的对话头生成基准,用于在面对面对话中合成单个交流者的行为,通过构建两个数据集,并针对面对面对话中的互动建立三个新任务,我们定义了相应的基线解决方案,并通过实验结果表明我们的基线方法可以生成具有响应能力和生动感的代理人,可以与真人协作完成整个对话。
Jul, 2023
在双人对话中,听众的头部反应与发言者的头部移动构成了重要的非言语语义表达。听众头部生成任务旨在基于发言者的音频和听众的参考图像,合成反应性的听众头部视频。本文提出了一个高性能的解决方案,通过增强音频编码器模块的分层语义提取能力,改进解码器部分、渲染器和后处理模块。我们的解决方案在 ACM Multimedia 2023 会议的 ViCo@2023 Conversational Head Generation Challenge 中获得了第一名。
Jul, 2023
我们提出了一个用户友好的框架 CustomListener 来实现根据自由文本信息生成自定义的监听者,通过 Static to Dynamic Portrait module (SDP) 和 Past Guided Generation Module (PGG) 来实现说话者和监听者之间的协调并维持一致性,实现可控生成。我们构建了两个文本标注的监听头数据集进行训练和评估,并进行了广泛的实验证明了我们模型的有效性。
Mar, 2024
本文提出了一个用于评估生成 “说话人头像” 视频的基准,并提出了一些新的或最合适的度量标准来考虑视频保持身份一致性、嘴唇同步性,高视频质量和自然运动,以分析多种先进技术的优缺点并提出未来工作的有希望的方向。
May, 2020
本文提出一种基于 3D-aware 生成网络、混合嵌入和非线性合成模块的方法,通过显式建模头部运动和面部表情,精心处理 3D 动画以及动态嵌入参考图像,实现了可控、逼真、时序连贯的说话者头像视频,并在多个标准基准测试中表现出优异的结果。
Jul, 2020
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021
该论文主要介绍了他们在 ACM Multimedia ViCo 2022 会话头部生成挑战中的解决方案,包括使用正则化训练广义的音频到头部的驱动程序和组装高质量的渲染器,以及利用前景 - 背景融合模块调整音频至行为模型和后处理生成的视频。该方案达到了听觉头部生成跟踪的第一名和说话头部生成跟踪的第二名。
Jun, 2022
提出了一个名为 VividTalk 的两阶段通用框架,用于生成具有高视觉质量的语音驱动的说话人视频,并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。
Dec, 2023
通过进行控制性的心理物理实验,我们验证了模型预测与人工注释之间的一致性,鉴定出相对于广泛使用的度量方法更能与人类意见相符的评估指标,以填补评估研究在视觉质量、嘴唇音频同步和头部移动自然性方面的空白。我们相信我们的工作将促进性能评估和模型开发,为人工智能生成内容在更广泛的背景下提供洞察。
Mar, 2024
通过多语种 2D 视频数据集,引入多语种增强模型,利用语言特定的样式嵌入,提高了 3D 说话人模型的多语种性能,并提出了度量多语种环境下的唇同步准确性指标。
Jun, 2024