Jul, 2023

AVSegFormer: 基于 Transformer 的音视频分割

TL;DR本文提出了一种基于 transformer 架构的音视频分割(AVS)框架 AVSegFormer,该框架引入了音频查询和可学习查询,利用注意力机制实现选择性关注有关的视觉特征,并使用中间 mask 损失增强了解码器的监督,有效解决了音视频分割任务中的重要挑战,实验结果表明,AVSegFormer 在 AVS 基准测试中取得了最佳性能。