BriefGPT.xyz
Ask
alpha
关键词
video foundation model
搜索结果 - 1
InternVideo2:面向多模态视频理解的视频基础模型的扩展
我们介绍 InternVideo2,这是一种新的视频基础模型(ViFM),在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式,统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督
→
PDF
3 months ago
Prev
Next