关键词visual question answering
搜索结果 - 457
- FlowVQA:将流程图用于视觉问答中的多模态逻辑映射PDF3 days ago
- 迷失于能力中:评估解释对用户对视觉问答系统的心智模型的影响PDF3 days ago
- 在视觉问答中通过模态感知特征蒸馏增强连续学习PDF3 days ago
- MMNeuron:发现多模态大语言模型中的神经元级领域特定解释PDF13 days ago
- 精确赋能,过度分散:动态注入语言模型中的视觉问答知识PDF16 days ago
- 视觉 - 语言模型遇上气象学:利用热力图开发极端天气事件检测模型PDF16 days ago
- 优化驾驶视觉问答模型:弥合人类与机器注意力模式的差距PDF17 days ago
- CVQA:跨文化多语言视觉问答基准PDF20 days ago
- 多模态大型语言模型中信息存储和传递的理解PDF24 days ago
- 扩散优化的半监督凝视跟踪 VQA 注释PDFa month ago
- ACL翻译需改进:对跨语言视觉问答翻译现象的分析PDFa month ago
- 多模式 LLMs 中的反向图像检索提示参数记忆PDFa month ago
- 意识到提示的适配器:为多模态大型语言模型学习自适应的视觉特征PDFa month ago
- UDKAG: 增强大型视觉语言模型的最新知识PDFa month ago
- PitVQA: 基于图像引导的文本嵌入 LLM 用于垂体手术的视觉问答PDFa month ago
- 乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准PDFa month ago
- 变色龙:混合模式早期融合基础模型PDFa month ago
- 实现教育的视觉问答:GPT-4V 作为一种多模态人工智能PDF2 months ago
- VSA4VQA: 将矢量符号体系扩展到自然图像的视觉问答中PDF2 months ago
- 增强的视觉问答:卷积的比较分析与文本特征提取PDF2 months ago
Prev