关键词visual question answering
搜索结果 - 457
  • CVPRWiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型
    PDF2 months ago
  • 探索多种方法在视觉问答中的应用
    PDF2 months ago
  • ViTextVQA:用于评估图像中越南文本理解的大规模视觉问答数据集
    PDF3 months ago
  • CVPR通过问题驱动的图像标题作为提示,增强视觉问答能力
    PDF3 months ago
  • HAMMR: 分层多模态反应智能代理程序用于通用 VQA
    PDF3 months ago
  • 基于多模态大语言模型的联合视觉与文本提示改善目标中心感知
    PDF3 months ago
  • TinyVQA: 资源受限设备上用于视觉问答的紧凑多模态深度神经网络
    PDF3 months ago
  • 不可解问题检测:评估视觉语言模型的可信度
    PDF3 months ago
  • 自动驾驶问答的多帧、轻量级和高效视觉语言模型
    PDF3 months ago
  • COLINGJDocQA: 用于生成语言模型的日语文档问答数据集
    PDF3 months ago
  • 量化和减轻多模大型语言模型中的单模偏差:因果视角
    PDF3 months ago
  • COLING基于凝视的视觉问答数据集用于澄清模糊的日语问题
    PDF3 months ago
  • COLING用于可解释图像问题回答的内在子图生成
    PDF3 months ago
  • 多智能体视觉问答:在零样本条件下探索多智能体基础模型
    PDF3 months ago
  • 数据效率改进基于感知增强的 LLMs 基准
    PDF3 months ago
  • WoLF:大规模语言模型框架用于 CXR 理解
    PDF3 months ago
  • FlexCap: 在图像中生成丰富、本地化和灵活的标题
    PDF3 months ago
  • 利用视觉语言模型将少样本图像分类和分割作为视觉问答
    PDF4 months ago
  • COLINGCLEVR-POC:部分可观察环境下的推理密集型视觉问答
    PDF4 months ago
  • 医疗报告生成和视觉问答的视觉语言模型综述
    PDF4 months ago