Aug, 2023
SCANet: 自我和交叉注意网络用于音视频语音分离
SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation
Kai Li, Runxuan Yang, Xiaolin Hu
TL;DR提出了一种名为自注意力网络(SCANet)的模型,通过利用注意机制实现有效的音频 - 视觉特征融合,其中包含了自注意力块(SA)和交叉注意力块(CA),能够从音频 - 视觉特征中提取不同的语义信息,并在三个标准音频 - 视觉分离基准上得到了更好的效果。