关键词visual question answering
搜索结果 - 457
  • FlowVQA:将流程图用于视觉问答中的多模态逻辑映射
    PDF3 days ago
  • 迷失于能力中:评估解释对用户对视觉问答系统的心智模型的影响
    PDF3 days ago
  • 在视觉问答中通过模态感知特征蒸馏增强连续学习
    PDF3 days ago
  • MMNeuron:发现多模态大语言模型中的神经元级领域特定解释
    PDF13 days ago
  • 精确赋能,过度分散:动态注入语言模型中的视觉问答知识
    PDF16 days ago
  • 视觉 - 语言模型遇上气象学:利用热力图开发极端天气事件检测模型
    PDF16 days ago
  • 优化驾驶视觉问答模型:弥合人类与机器注意力模式的差距
    PDF17 days ago
  • CVQA:跨文化多语言视觉问答基准
    PDF20 days ago
  • 多模态大型语言模型中信息存储和传递的理解
    PDF24 days ago
  • 扩散优化的半监督凝视跟踪 VQA 注释
    PDFa month ago
  • ACL翻译需改进:对跨语言视觉问答翻译现象的分析
    PDFa month ago
  • 多模式 LLMs 中的反向图像检索提示参数记忆
    PDFa month ago
  • 意识到提示的适配器:为多模态大型语言模型学习自适应的视觉特征
    PDFa month ago
  • UDKAG: 增强大型视觉语言模型的最新知识
    PDFa month ago
  • PitVQA: 基于图像引导的文本嵌入 LLM 用于垂体手术的视觉问答
    PDFa month ago
  • 乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准
    PDFa month ago
  • 变色龙:混合模式早期融合基础模型
    PDFa month ago
  • 实现教育的视觉问答:GPT-4V 作为一种多模态人工智能
    PDF2 months ago
  • VSA4VQA: 将矢量符号体系扩展到自然图像的视觉问答中
    PDF2 months ago
  • 增强的视觉问答:卷积的比较分析与文本特征提取
    PDF2 months ago
Prev