使用语音单元的可懂嘴唇合成
RobustL2S 是一种模块化的 Lip-to-Speech 合成框架,通过自监督学习对 Lip 形象进行映射,获得一种解耦的语音内容特征,再利用 vocoder 将语音特征转化为原始的声波信号,实现了在多个数据集上的最佳表现。
Jul, 2023
提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法,通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入,并使用视觉流生成与输入视频同步的准确语音,通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性,并在辅助技术中展示了其重要的实际应用。
Mar, 2024
给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架,该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频,实现了短视频时的准确嘴唇和形象产生,以及视频的视觉质量和语音 - 视觉同步方面的最新性能。
Sep, 2023
本文提出了一种可扩展的视频到语音综合框架,利用自我监督学习的方法,通过视频预测频谱图并使用预训练的神经声码器将其转换为语音波形,显着优于以往方法,并在 LRS3 数据集上首次展示令人满意的结果。
May, 2022
通过一个由自动编码器和卷积神经网络构成的模型,在无声视频中对语音信号的频谱表示进行重建,获得了 98% 的相关性并且提高了音频质量。经过多个说话人的联合训练,该模型能够提取出不同说话人的个体特征,具有良好的识别准确率。
Oct, 2017
本研究提出一种直接语音到语音的翻译模型,它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音,并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译,以预测目标语音的离散表示,并在同一推断通过实现同步生成双重模态输出(语音和文本)。在 Fisher 西班牙语 - 英语数据集上,我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译,当没有文本转录时,我们的模型表现与训练有文本监督的谱图预测模型相当。
Jul, 2021
该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型,该模型不需要自然语言文本作为中间表示或监督来源,而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来,这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验,并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库,证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示,并通过实验证明,这些表示必须满足几个重要的属性,才能作为文本的替代品。
Dec, 2020
本文提出了一种基于说话者唇部运动的语音合成方法,通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计,该模型可以更准确、自然地模拟说话者的语音,其量化、定性评估结果表明,该方法比现有方法的可理解性提高了四倍。
May, 2020
此研究提出了一种新颖的唇到语音系统,通过多个角度缓解一对多映射问题,包括引入自监督语音表示来消除同音异义词,并使用声学变异信息来建模多样的语音风格。此外,为了更好地解决上述问题,采用了基于流的后端网络来捕捉和优化生成语音的细节。广泛的实验证明,该方法实现了接近真实人类话语的语音生成质量,大幅度优于现有方法在语音自然度和可理解性方面。合成样本可在匿名演示页面 (this https URL) 上获取。
Aug, 2023
通过将预训练的基于文本的大型语言模型(LLM)与语音输入集成,我们提出使用离散语音单元(DSU)代替连续值语音编码器输出,通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能,并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数(MFCC)提取的各种类型的 DSU。我们的发现表明,在口语问答任务的指令调优中,ASR 任务和数据集并不关键。
Jun, 2024