关键词video-text pre-training
搜索结果 - 3
- VLAB: 通过特征调整和混合增强视频语言预训练
本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法,通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型,验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。
- ECCVLocVTP: 视频文本预训练用于时间定位
本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP,通过精细对比对齐和上下文感知等机制,提高了其学到的特征的时空推理能力和传递性,实现了在四个下游任务上的最优表现。
- 学习区域的视频文本预训练
本研究提出一种新的视频文本表示学习模块(RegionLearner),能够在大规模视频文本对的预训练中考虑对象结构,并通过语义群聚来合并视觉特征,最终通过不同聚合区域之间的交互来建模,从而促进视频文本检索的效果。