TDFNet:一种高效的音频 - 视觉语音分离模型与自顶向下融合
本文提出了一种新颖的基于时频域的音视频语音分离方法:递归时频分离网络 (RTFS-Net),通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模,并引入了独特的基于注意力的融合技术,以有效地整合音频和视觉信息,并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net 在仅使用 10% 的参数和 18% 的 MAC 时,超越了先前的最先进方法。这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。
Sep, 2023
本文介绍了一种新的时间域音视图架构,用于从单声道混合物中提取目标说话人,实验结果表明,相比于仅有声音的 TasNet 和频域音 - 视网络,我们的方法在两个和三个说话人的情况下分别可以提供 3dB + 和 4dB + 的信噪比改进。
Apr, 2019
本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet,并在三个基准数据集上验证其高效性和有效性。
Sep, 2022
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算法之一。
Nov, 2017
本文介绍了 AVDiffuSS,一种基于扩散机制的音视频语音分离模型,通过视觉线索从声音混合中提取目标发言者的声音,该模型在保持自然性方面具有挑战,并提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合,并在语音生成中集成语音视觉对应的语音信息,通过该提出的框架在 VoxCeleb2 和 LRS3 这两个基准测试上取得了最先进的结果,生成的语音具有显著更好的自然音质。
Oct, 2023
本文提出了一种音频 - 视觉声音分离方案,在两种不同场景(语音和唱歌)中实现了低时延的最新成果。该模型基于两级网络,采用轻量级图卷积网络从面部标记中提取运动线索,然后将视觉和音频特征输入到音频 - 视觉转换器中,为目标源的隔离估计提供相当不错的结果。在第二阶段,利用音频网络增强了主要的声音。我们进行了不同的消融研究和与最先进的方法比较。最后,我们探讨了在唱声分离任务中训练语音分离模型的可转移性。
Mar, 2022
本文系统综述了基于深度学习的音视频语音增强和分离技术,特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时,还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法,并介绍了常用的音视频数据集和评估方法。
Aug, 2020
我们提出了一种联合音频 - 视觉模型,用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号,并且利用深度学习和 AVSpeech 数据集,实现了人脸指定后的语音分离任务,相较于仅使用音频的方法,在多说话人的情况下表现出更好的效果。
Apr, 2018
本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型,该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型,并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。
Feb, 2018
通过借鉴 Hybrid Demucs 架构,本文提出了混合谱图时域音频分离网络(HS-TasNet),结合了频谱和波形域的优势,为实时低延迟的音乐应用展现了高效分离的潜力。
Feb, 2024