关键词vision-language foundation models
搜索结果 - 19
  • 视觉语言基础模型中的运动预测中的难例检测
    PDFa month ago
  • 基于超球面空间的参数高效微调用于开放词汇语义分割
    PDFa month ago
  • 通过文本引导的多样的新颖特征合成将 CLIP 普及到未知领域
    PDF2 months ago
  • 开放词汇分割的可转移和原则性效率
    PDF3 months ago
  • CVPRMA-LMM:用于长期视频理解的增强记忆大型多模态模型
    PDF3 months ago
  • GOV-NeSF: 通用开放词汇神经语义领域
    PDF3 months ago
  • VideoAgent: 基于大型语言模型的长视频理解
    PDF4 months ago
  • 视觉语言模型泛化的不变测试时间适应
    PDF4 months ago
  • FM-Fusion: 基于视觉 - 语言基础模型的实例感知语义映射增强
    PDF5 months ago
  • M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解
    PDF5 months ago
  • CheXagent: 朝向胸部 X 射线解读的基础模型
    PDF5 months ago
  • UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解
    PDF6 months ago
  • InternVL:扩展视觉基础模型并对通用视觉语言任务进行对齐
    PDF6 months ago
  • Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解
    PDFa year ago
  • 利用视觉 - 语言基础模型进行精细化下游任务
    PDFa year ago
  • 基于指令微调基础模型的多模式网络导航
    PDFa year ago
  • CVPR基于语言引导的三模态一致性音视频源分离
    PDFa year ago
  • CVPR基于基础模型反馈的政策调整
    PDF2 years ago
  • CVPRPLA: 基于自然语言的开放词汇三维场景理解
    PDF2 years ago
Prev
Next