BriefGPT.xyz
Ask
alpha
关键词
multimodal and large language models
搜索结果 - 1
释放 CLIP 在视频亮点检测中的潜力
通过利用多模态模型中预训练知识和创新的显著性池化技术,我们在视频亮点检测任务中通过简单微调多模态编码器达到了最先进的性能,对于 QVHighlight 基准测试而言,可获得最佳表现。
PDF
3 months ago
Prev
Next