利用WaveNet进行动态听者头像建模

Sep, 2024

Leveraging WaveNet for Dynamic Listening Head Modeling from Speech

Minh-Duc Nguyen, Hyung-Jeong Yang, Seung-Won Kim, Ji-Eun Shin, Soo-Hyung Kim

TL;DR本研究解决了在面对面交流中听者面部反应的真实模拟问题。通过结合WaveNet和长短期记忆网络的序列到序列模型，我们的创新方法能够捕捉听者反馈的微妙细节，同时保持个体身份并表达合适的态度和观点。实验结果表明，该方法在ViCo基准数据集上优于基准模型。

Abstract

The creation of listener facial responses aims to simulate interactive communication feedback from a listener during a face-to-face conversation. Our goal is to generate believable videos of listeners' heads that

发现论文，激发创造

WaveNet：原始音频的生成模型

该研究介绍了 WaveNet，一种用于生成原始音频波形的深度神经网络，该模型是完全概率的和自回归的，应用于文本到语音，产生了最先进的性能，用于模拟音乐，生成新颖且高度逼真的音乐片段，并可作为一种判别模型返回有希望的语素识别结果。

Sep, 2016

通过在Mel频谱预测上调节WaveNet，进行自然语音合成

该论文阐述了 Tacotron 2 的神经网络框架，该框架可以从文本中直接合成语音，其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成，能够实现与专业录制的语音相当的平均意见分数 (MOS)。

Dec, 2017

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

响应式听觉头部生成：一个基准数据集和基准模型

本文介绍了一种新的人脸-面对面谈话场景下，回应听众的反馈（如点头、微笑）的生成模型，并针对此场景提出了新的数据集“ViCo”，该数据集支持一系列应用，如人机交互、视频翻译和跨模态生成，同时提供了生成模型的基线。

Dec, 2021

为反馈预测建立演讲者 - 听众交互模型

本文提出一种新颖的后发模型，模拟了英语中 Yeah 和 Uh-huh 以及德语中的对应标记的最小响应的使用，通过处理讲话者语音的声学特征，捕捉和模仿听众的后发行为，并编码演讲者-听众交互，提出了一种基于神经网络的声学后发分类器。通过在Switchboard和GECO数据集上的实验，我们的研究表明，在几乎所有测试场景中，演讲者或听众行为嵌入有助于模型进行更准确的后发预测。更重要的是，一种适当的交互编码策略，即结合演讲者和听众嵌入，能够在F1-score方面在两个数据集上实现最佳性能。

Apr, 2023

分层语义感知听觉头部视频生成：一个高性能的管线

在双人对话中，听众的头部反应与发言者的头部移动构成了重要的非言语语义表达。听众头部生成任务旨在基于发言者的音频和听众的参考图像，合成反应性的听众头部视频。本文提出了一个高性能的解决方案，通过增强音频编码器模块的分层语义提取能力，改进解码器部分、渲染器和后处理模块。我们的解决方案在ACM Multimedia 2023会议的ViCo@2023 Conversational Head Generation Challenge中获得了第一名。

Jul, 2023

语言模型能否学会倾听？

基於語言模型和量化的原子運動元素，我們提出了一種生成聽眾適當面部反應的框架，以回應演講者的言談，並展示了模型在定量指標和定性用戶研究中生成流暢且反映語義的聽眾動作的能力。

Aug, 2023

多方面响应式听力头生成的MFR-Net：通过去噪扩散模型

响应式听觉头部生成网络（MFR-Net）旨在通过生成侦听视频来模拟面对面通信情境，以姿态和观点表达对发言人作出响应，同时保持交互模式的多样性和侦听者身份信息的准确性。

Aug, 2023

FaceTalk：面部动作驱动的神经参数化头部模型的运动扩散

FaceTalk是一种新颖的生成方法，用于从输入音频信号中合成具有高保真度的人头部3D运动序列。

Dec, 2023

FaceChain-ImagineID: 从解耦音频中自由地构建高保真多样化的说话人脸

从单一音频生成具有高保真度的多样对话人脸，通过音频解耦、面部几何和语义学习、可控一致帧生成实现视觉多样性和音频同步动画。

Mar, 2024