无需实际视觉流的视觉语音增强

Dec, 2020

Visual Speech Enhancement Without A Real Visual Stream

Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V. Jawahar

TL;DR本文提出了一个基于说话者的唇部动作的噪音滤波器模型，该模型利用了最新的语音驱动唇部合成技术，能够在缺少视觉流的情况下优化语音质量和可懂性，并通过定量和人工评估证明了其有效性。

Abstract

In this work, we re-think the task of speech enhancement in unconstrained real-world environments. Current state-of-the-art methods use only the audio stream and are limited in their performance in a wide range of real-world noises. Recent works using →

speech enhancement lip movements visual noise filter speech-driven lip synthesis unconstrained real-world environments

发现论文，激发创造

视觉语音增强

本研究使用基于视听神经网络的视觉语音增强方法，在包含有目标演讲者语音的视频背景噪音情况下，通过口型运动提高演讲者语音的清晰度，在嘈杂的环境中实现了语音增强和噪音降低效果，相较于先前的视听方法在两个公共的口形读音数据集上表现更好，同时也是第一个在面向非口形读音的数据集（如巴拉克・奥巴马每周的演讲）上进行的示例研究。

Nov, 2017

全人工合成实验室中准确的唇语到语音合成

提出了一种从任何野外说话人的无声视频中仅基于嘴唇动作合成语音的新方法，通过将嘴唇到文本网络的嘈杂文本监督纳入模型中实现了语言信息注入，并使用视觉流生成与输入视频同步的准确语音，通过广泛的实验和消融研究表明了该方法在各种基准数据集上的优越性，并在辅助技术中展示了其重要的实际应用。

Mar, 2024

音视频语音编解码器：重新思考音视频语音增强通过再合成的方法

本文提出了一种新的音频 - 视觉语音增强框架，利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音，以提高增强幅度和视角方面的质量。

Mar, 2022

嘴唇闭合：透过障碍物进行视听言语增强

本文提出了一种深度音频 - 视觉语音增强网络，该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音，在嘴部区域引入人工遮挡并通过混合音频来训练模型，实现说话者独立，且在视觉感知受阻的情况下表现优异的应用。

Jul, 2019

学习个别讲话风格以实现准确的唇读语音合成

本文提出了一种基于说话者唇部运动的语音合成方法，通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计，该模型可以更准确、自然地模拟说话者的语音，其量化、定性评估结果表明，该方法比现有方法的可理解性提高了四倍。

May, 2020

利用唇语专家的视听指导增强语音驱动的三维面部动画

本文介绍了一种基于语音驱动的三维面部动画生成准确嘴唇运动的方法，通过提出的视听多模态感知损失来指导训练面部动画生成器生成与口述文本相对齐的可信嘴唇动作。此外，我们还设计了一种利用先验知识关联语音和嘴唇运动的视听唇读专家，以整合提出的视听感知损失，并通过广泛的实验证实了我们的方法的有效性，显示了嘴唇同步和可读性性能的明显改善。

Jul, 2024

Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频

给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架，该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频，实现了短视频时的准确嘴唇和形象产生，以及视频的视觉质量和语音 - 视觉同步方面的最新性能。

Sep, 2023

基于上下文的语音修补：以视频为导向的语音合成

本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题，该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型，同时说明了使用 AV-HuBERT 提取的视觉特征可以合成语音。

Jun, 2023

由唇语专家引导的交谈面部生成

本文提出了一种利用口语专家、对不正确的生成结果进行惩罚和全局时间和视觉同步编码的对比学习和变压器方法来提高口语智能理解度的方法，并使用两种不同的口语专家评估生成视频的智能理解度。我们的方法在读取可理解度、嘴唇运动同步等方面优于当前的一些最先进方法，并获得其他方面的收益。

Mar, 2023

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018