该研究介绍了 WaveNet,一种用于生成原始音频波形的深度神经网络,该模型是完全概率的和自回归的,应用于文本到语音,产生了最先进的性能,用于模拟音乐,生成新颖且高度逼真的音乐片段,并可作为一种判别模型返回有希望的语素识别结果。
Sep, 2016
该论文阐述了 Tacotron 2 的神经网络框架,该框架可以从文本中直接合成语音,其系统由一种递归的序列到序列的特征预测网络和一个修改的 WaveNet 模型组成,能够实现与专业录制的语音相当的平均意见分数 (MOS)。
Dec, 2017
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021
本文介绍了一种新的人脸-面对面谈话场景下,回应听众的反馈(如点头、微笑)的生成模型,并针对此场景提出了新的数据集“ViCo”,该数据集支持一系列应用,如人机交互、视频翻译和跨模态生成,同时提供了生成模型的基线。
Dec, 2021
本文提出一种新颖的后发模型,模拟了英语中 Yeah 和 Uh-huh 以及德语中的对应标记的最小响应的使用,通过处理讲话者语音的声学特征,捕捉和模仿听众的后发行为,并编码演讲者-听众交互,提出了一种基于神经网络的声学后发分类器。通过在Switchboard和GECO数据集上的实验,我们的研究表明,在几乎所有测试场景中,演讲者或听众行为嵌入有助于模型进行更准确的后发预测。更重要的是,一种适当的交互编码策略,即结合演讲者和听众嵌入,能够在F1-score方面在两个数据集上实现最佳性能。
Apr, 2023
在双人对话中,听众的头部反应与发言者的头部移动构成了重要的非言语语义表达。听众头部生成任务旨在基于发言者的音频和听众的参考图像,合成反应性的听众头部视频。本文提出了一个高性能的解决方案,通过增强音频编码器模块的分层语义提取能力,改进解码器部分、渲染器和后处理模块。我们的解决方案在ACM Multimedia 2023会议的ViCo@2023 Conversational Head Generation Challenge中获得了第一名。
Jul, 2023
基於語言模型和量化的原子運動元素,我們提出了一種生成聽眾適當面部反應的框架,以回應演講者的言談,並展示了模型在定量指標和定性用戶研究中生成流暢且反映語義的聽眾動作的能力。
Aug, 2023
响应式听觉头部生成网络(MFR-Net)旨在通过生成侦听视频来模拟面对面通信情境,以姿态和观点表达对发言人作出响应,同时保持交互模式的多样性和侦听者身份信息的准确性。
FaceTalk是一种新颖的生成方法,用于从输入音频信号中合成具有高保真度的人头部3D运动序列。
Dec, 2023
从单一音频生成具有高保真度的多样对话人脸,通过音频解耦、面部几何和语义学习、可控一致帧生成实现视觉多样性和音频同步动画。
Mar, 2024