本文对近年来基于深度学习的监督式语音分离算法进行了全面的综述,包括语音增强、讲话人分离、去混响以及多麦克风技术,并重点讨论监督学习中独特的泛化问题。
Aug, 2017
本研究使用基于视听神经网络的视觉语音增强方法,在包含有目标演讲者语音的视频背景噪音情况下,通过口型运动提高演讲者语音的清晰度,在嘈杂的环境中实现了语音增强和噪音降低效果,相较于先前的视听方法在两个公共的口形读音数据集上表现更好,同时也是第一个在面向非口形读音的数据集(如巴拉克·奥巴马每周的演讲)上进行的示例研究。
Nov, 2017
我们提出了一种联合音频-视觉模型,用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号,并且利用深度学习和 AVSpeech 数据集,实现了人脸指定后的语音分离任务,相较于仅使用音频的方法,在多说话人的情况下表现出更好的效果。
Apr, 2018
本文提出了一种深度视听语音增强网络方法,借助于对应视频中的嘴唇信息,能够在多人同时说话的情境下,从语音信号中分离出个人的发言,该方法适用于训练时未涉及到的说话者,并在不受限制的环境下,展现了出色的定量和定性效果。
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音/非语音分离方面,长窗口的STFT(25-50毫秒)效果明显好于短窗口(2.5毫秒),对于可学习的基础来说,短窗口(2.5毫秒)一直是最佳选择。作者的最佳 方法在语音/非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019
本文提出了一种深度音频-视觉语音增强网络,该网络可以通过对说话者的嘴唇动作和/或声音来分离说话者的声音,在嘴部区域引入人工遮挡并通过混合音频来训练模型,实现说话者独立,且在视觉感知受阻的情况下表现优异的应用。
Jul, 2019
使用深度学习中的音频-视觉语音分离网络,从混音状态中分离出指定说话者的语音,且仅使用目标说话者的单一面部图像,通过潜在空间的交叉模态生物识别任务中的面部外观获得条件特征,可隔离和提取这些说话者的语音,为语音分离任务中的通道交换问题提供解决方案,同时也适用于未知说话者。
May, 2020
提出一种基于面部出现和声音特征对语音进行分离的方法,可对五种基准数据集进行音视频语音分离和增强,而且具有较好的泛化性能。
Jan, 2021
本文提出了一种新的音频-视觉语音增强框架,利用个人化模型和神经语音编解码器从嘈杂的信号中高效合成真实干净的语音,以提高增强幅度和视角方面的质量。
Mar, 2022
本文介绍了AVDiffuSS,一种基于扩散机制的音视频语音分离模型,通过视觉线索从声音混合中提取目标发言者的声音,该模型在保持自然性方面具有挑战,并提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合,并在语音生成中集成语音视觉对应的语音信息,通过该提出的框架在VoxCeleb2和LRS3这两个基准测试上取得了最先进的结果,生成的语音具有显著更好的自然音质。
Oct, 2023