Sep, 2023

RTFS-Net: 循环时间频率建模 有效的音频视觉语音分离

TL;DR本文提出了一种新颖的基于时频域的音视频语音分离方法:递归时频分离网络 (RTFS-Net),通过在短时傅里叶变换产生的复杂时频区间上运用算法来独立地对音频的时间和频率进行建模,并引入了独特的基于注意力的融合技术,以有效地整合音频和视觉信息,并利用声学特征的固有谱特性进行更清晰的分离。RTFS-Net 在仅使用 10% 的参数和 18% 的 MAC 时,超越了先前的最先进方法。这是首个在时频域中超越所有当代时域对应方法的音视频语音分离方法。