BriefGPT.xyz
大模型
Ask
alpha
关键词
ocr tokens
搜索结果 - 1
面向 TextVQA 的空间感知多模态 Transformer
本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型,可以有效地推理图像中的文本内容,改进了 TextVQA 和 ST-VQA 两个关键指标,同时为视觉绑定的研究方向提供了新的思路。
PDF
4 years ago
Prev
Next