Aug, 2023

TeachCLIP: 高效文本到视频检索的多粒度教学

TL;DR通过多层次教学,利用具有更高性能但计算负荷较大的模型,如 X-CLIP、TS2-Net 和 X-Pool,以及引入注意力框架特征聚合(AFA)块来提高学生网络的学习能力,以实现高效的文本到视频检索。实验结果表明所提出的方法是可行的。