BriefGPT.xyz
Ask
alpha
关键词
scene text visual question answering
搜索结果 - 2
AAAI
定位再生成:通过边界框桥接视觉和语言进行场景文本 VQA
提出了一个用于场景文本视觉问答的多模态框架,采用 “先定位再生成” 的范式,将空间边界框作为连接文本和视觉模态的桥梁,通过预先训练的语言模型增强绝对准确率。
PDF
a year ago
LaTr: 面向场景文本 VQA 的布局感知 Transformer
提出了一种新的多模态体系结构 Layout-Aware Transformer(LaTr)来进行场景文本视觉问答(STVQA),并提出了一种单一目标的预训练方案,该方案仅需要文本和空间线索。 LaTr 通过将语言和布局信息联系起来,可以学习
→
PDF
3 years ago
Prev
Next