Aug, 2023

SCANet: 自我和交叉注意网络用于音视频语音分离

TL;DR提出了一种名为自注意力网络(SCANet)的模型,通过利用注意机制实现有效的音频 - 视觉特征融合,其中包含了自注意力块(SA)和交叉注意力块(CA),能够从音频 - 视觉特征中提取不同的语义信息,并在三个标准音频 - 视觉分离基准上得到了更好的效果。