本文介绍了一种基于卷积神经网络的端到端模型,可将无声视频帧转化为可听、自然的语音信号,模型在 GRID 和 TCD-TIMIT 数据集上训练,并使用常见的客观指标评估重建语音的质量和可懂度,结果表明,本文提出的模型在预测语音方面比现有模型得分显著提高,同时展示了从无约束字典重构语音的有 promising 结果。
Aug, 2017
本文利用深度学习算法,通过从口型信息中提取语音声学特征进行语音的合成,从而改善无声视频中语音恢复的质量。
Apr, 2020
本文提出了一种基于生成式对抗网络(GANs)的、直接从无声视频中合成自然语音的端到端模型,能够根据视频内容生成与其同步的语音,并在 GRID 数据集上进行了性能评估,实现了从视频到裸音频的首次直接映射,并能够识别新演讲者的语音,并在音质和准确性方面对生成的音频进行评价。
Jun, 2019
通过一个由自动编码器和卷积神经网络构成的模型,在无声视频中对语音信号的频谱表示进行重建,获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练,该模型能够提取出不同说话人的个体特征,具有良好的识别准确率。
Oct, 2017
使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频,以改进与音频视觉媒体的交互,包括 CCTV 镜头分析、历史视频恢复和视频生成模型。
Apr, 2024
使用视频和音频输入进行视频转语音合成的研究,通过使用预训练的视频转语音模型来合成缺失的语音信号,并训练一个音频 - 视觉 - 语音合成模型,通过同时使用静默视频和合成的语音输入来预测最终的重建语音。实验结果表明,在以原始波形和 mel 频谱图作为目标输出的情况下,这种方法是成功的。
Jul, 2023
本文提出了一种改进的模型,利用面部肌电图信号合成音频,并使用卷积层和 Transformer 层提取特征和传递信息,在预测语音音频特征的同时引入了辅助任务来提供更好的信号,实现了在开放词汇清晰度评估上表现出绝对提高了 25.8% 的最新技术水平。
Jun, 2021
本论文提出一种简单的端对端语音识别模型,用卷积神经网络基于声学模型和图解码相结合,通过输出字母实现语音转录,无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练,不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率,并在原始波形上得到有希望的结果。
Sep, 2016
本文提出了一种深度视听语音增强网络方法,借助于对应视频中的嘴唇信息,能够在多人同时说话的情境下,从语音信号中分离出个人的发言,该方法适用于训练时未涉及到的说话者,并在不受限制的环境下,展现了出色的定量和定性效果。
Apr, 2018
该论文介绍了一种从无声说话人面部视频中重建语音的方法,该方法通过分离视频中的语音内容和面部特征,并采用基于面部特征的语音合成器来综合这些分离的表示,实现了即使给定未知主题的视频也能生成包含正确内容的语音。
Jun, 2022