Jan, 2024

TDFNet:一种高效的音频 - 视觉语音分离模型与自顶向下融合

TL;DR在本文中,我们提出了一种名为 TDFNet 的音视频语音分离模型,该模型建立在 TDANet 架构基础上,以更高效的方式实现声音和图像网络的融合,使得在音视频领域的语音分离具有更高效和高效的解决方案,并在性能上显著超越了以前的最先进方法 CTCNet。