关键词visual question answering
搜索结果 - 458
  • 医疗报告生成和视觉问答的视觉语言模型综述
    PDF4 months ago
  • 基于知识库的图像视觉常识发现
    PDF4 months ago
  • CommVQA: 在交际语境中定位视觉问题回答
    PDF4 months ago
  • 视觉 - 语言模型的不确定性感知评估
    PDF4 months ago
  • AAAIVQAttack:基于预训练模型的可传递视觉问答对抗攻击
    PDF5 months ago
  • II-MMR: 识别和改进多模式多跳推理在视觉问答中
    PDF5 months ago
  • ACL通过一个新的平行图像数据集研究大型视觉语言模型中的性别和种族偏见
    PDF5 months ago
  • 说服性的视觉问答推理理由
    PDF5 months ago
  • LCVO:一种高效的无预训练视觉问答定位框架
    PDF5 months ago
  • 有效课程学习中改进数据增强以提升鲁棒视觉问答
    PDF5 months ago
  • 放射学中的医学图像自由形式问答
    PDF5 months ago
  • SpatialVLM:赋予视觉语言模型空间推理能力
    PDF5 months ago
  • 通过挖掘问答提示发现丰富的视觉线索,为需要多样化世界知识的 VQA 提供支持
    PDF5 months ago
  • Veagle: 多模态表征学习的进展
    PDF6 months ago
  • 揭示 VQA 中视觉定位方法的全部潜力
    PDF6 months ago
  • 通过一个大型语言模型的一系列问答,将目前基于合成问题的视觉问答普及到人工书写的问题
    PDF6 months ago
  • 基于知识的视觉问答的跨模态检索
    PDF6 months ago
  • PeFoMed: 多模态大语言模型的参数高效微调在医学视觉问答中的应用
    PDF6 months ago
  • 教育证据显示 GPT-4V 战胜 Gemini Pro
    PDF6 months ago
  • 实现统一的多模态推理框架
    PDF6 months ago