multimodal and large language models | BriefGPT

关键词multimodal and large language models

搜索结果 - 1

释放 CLIP 在视频亮点检测中的潜力
通过利用多模态模型中预训练知识和创新的显著性池化技术，我们在视频亮点检测任务中通过简单微调多模态编码器达到了最先进的性能，对于 QVHighlight 基准测试而言，可获得最佳表现。
PDF3 months ago