关键词video-text tasks
搜索结果 - 4
  • InternVideo2:面向多模态视频理解的视频基础模型的扩展
    PDF3 months ago
  • COSA: 连接样本预训练的视觉 - 语言基础模型
    PDFa year ago
  • X$^2$-VLM:图像和语言任务的多功能预训练模型
    PDF2 years ago
  • 视觉 - 语言预训练:基础、最新进展和未来趋势
    PDF2 years ago
Prev
Next