Apr, 2024

释放 CLIP 在视频亮点检测中的潜力

TL;DR通过利用多模态模型中预训练知识和创新的显著性池化技术,我们在视频亮点检测任务中通过简单微调多模态编码器达到了最先进的性能,对于 QVHighlight 基准测试而言,可获得最佳表现。