BriefGPT.xyz
Ask
alpha
关键词
multi-modal vqa models
搜索结果 - 1
信息图问答
本文探讨使用视觉问答技术自动理解信息图像,并介绍包含自然语言问题和答案注释的多样化信息图集 InfographicVQA,强调重点是需要基本推理和基本算术能力的问题。作者进一步在现有的多模态 VQA 模型的基础上建立两种强大的基准,并为新任
→
PDF
3 years ago
Prev
Next