关键词visual question answering
搜索结果 - 457
- CVPRWiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型PDF2 months ago
- 探索多种方法在视觉问答中的应用PDF2 months ago
- ViTextVQA:用于评估图像中越南文本理解的大规模视觉问答数据集PDF3 months ago
- CVPR通过问题驱动的图像标题作为提示,增强视觉问答能力PDF3 months ago
- HAMMR: 分层多模态反应智能代理程序用于通用 VQAPDF3 months ago
- 基于多模态大语言模型的联合视觉与文本提示改善目标中心感知PDF3 months ago
- TinyVQA: 资源受限设备上用于视觉问答的紧凑多模态深度神经网络PDF3 months ago
- 不可解问题检测:评估视觉语言模型的可信度PDF3 months ago
- 自动驾驶问答的多帧、轻量级和高效视觉语言模型PDF3 months ago
- COLINGJDocQA: 用于生成语言模型的日语文档问答数据集PDF3 months ago
- 量化和减轻多模大型语言模型中的单模偏差:因果视角PDF3 months ago
- COLING基于凝视的视觉问答数据集用于澄清模糊的日语问题PDF3 months ago
- COLING用于可解释图像问题回答的内在子图生成PDF3 months ago
- 多智能体视觉问答:在零样本条件下探索多智能体基础模型PDF3 months ago
- 数据效率改进基于感知增强的 LLMs 基准PDF3 months ago
- WoLF:大规模语言模型框架用于 CXR 理解PDF3 months ago
- FlexCap: 在图像中生成丰富、本地化和灵活的标题PDF3 months ago
- 利用视觉语言模型将少样本图像分类和分割作为视觉问答PDF4 months ago
- COLINGCLEVR-POC:部分可观察环境下的推理密集型视觉问答PDF4 months ago
- 医疗报告生成和视觉问答的视觉语言模型综述PDF4 months ago