Jul, 2024

SAVE: 音视频分段的简便方法使用分段模型

TL;DR通过提出的SAVE模型,将预训练的SAM模型有效地适应AVS任务,通过在变压器块中引入图像编码器适配器和残差音频编码器适配器,实现有效的音频- 视觉融合和交互,加速训练和推理速度,同时在输入图像分辨率从1024像素减少到256像素的情况下获得更高的性能。验证实验表明,该方法明显优于其他方法。