关键词visual understanding
搜索结果 - 30
  • 明辨视界,难答问题:基于多模态鲁棒性的机器学习语言模型评估
    PDF19 days ago
  • InsightSee:提升多智能体视觉语言模型以增强视觉理解力
    PDFa month ago
  • 学习物理定律的下一帧预测的能力
    PDFa month ago
  • CVPRAutoAD III:前传 -- 回到像素
    PDF2 months ago
  • BRAVE:拓宽视觉语言模型的视觉编码
    PDF3 months ago
  • 通过在合成数据中嵌入自然图像模式学习零样本材料状态分割
    PDF4 months ago
  • 基于综合切分对大型语言模型进行落地:地鼠模型
    PDF4 months ago
  • ECCVUnionDet:面向实时人物物体互动检测的联合级别检测器
    PDF6 months ago
  • 走向更统一的上下文视觉理解
    PDF7 months ago
  • 面向视觉识别与推理的统一神经网络架构
    PDF8 months ago
  • 基于场景特定融合模块的 RGB-X 物体检测
    PDF8 months ago
  • GPT-4V(视觉)的早期评估
    PDF8 months ago
  • DyST:面向真实世界视频的动态神经场景表示
    PDF9 months ago
  • BLIVA:一个简单的多模态 LLM 用于更好地处理文本丰富的视觉问题
    PDF10 months ago
  • 使用提示进行多模态视觉理解,实现图像语义信息的解耦
    PDFa year ago
  • 一次性对 Everything Everywhere 进行分割
    PDFa year ago
  • 通过分离空间 - 时间建模学习视频问答的细粒度视觉理解
    PDF2 years ago
  • VQA-GNN:用多模态语义图推理进行视觉问答
    PDF2 years ago
  • KDD通过常识知识集成进行零样本场景图关系预测
    PDF3 years ago
  • CVPR自适应消息传递的二分图网络用于无偏场景图生成
    PDF3 years ago
Prev