关键词video-language models
搜索结果 - 16
  • Tarsier:训练和评估大型视频描述模型的方案
    PDF4 days ago
  • 加强视频语言表示的结构时空对齐
    PDF7 days ago
  • CVPRHENASY: 学习组装场景实体的视角自述视频语言模型
    PDFa month ago
  • 开放词汇空间时间动作检测
    PDF2 months ago
  • TV-TREES: 多模态蕴涵树用于神经符号化视频推理
    PDF4 months ago
  • Slot-VLM:视频 - 语言建模的 SlowFast 插槽
    PDF4 months ago
  • 数百万视频上的视觉语言模型蒸馏
    PDF6 months ago
  • Spacewalk-18:一项在新领域中进行多模态和长形式过程视频理解的基准测试
    PDF7 months ago
  • VITATECS:用于视频语言模型的时间概念理解诊断数据集
    PDF7 months ago
  • SPOT!重新审视视频语言模型用于事件理解
    PDF7 months ago
  • Youku-mPLUG: 一份 1000 万规模的中文视频语言数据集,用于预训练和基准测试
    PDFa year ago
  • 时间考验:让视频语言模型具有时间感
    PDFa year ago
  • EMNLP预训练模型在多模式标题生成中的嫁接
    PDF2 years ago
  • ACL使用细粒度帧采样的对比视频语言学习
    PDF2 years ago
  • LAVENDER: 统一视频 - 语言理解作为遮蔽语言建模
    PDF2 years ago
  • 利用图像描述符的语言模型是强的少样本视频语言学习器
    PDF2 years ago
Prev
Next