BriefGPT.xyz
大模型
Ask
alpha
关键词
structured multimodal attention
搜索结果 - 1
面向 TextVQA 的结构化多模态关注力
本文提出了一种端到端的结构化多模态关注神经网络,通过使用图形表示和多模态图形注意网络设计来处理 TextVQA 中的可视文本问答问题,并通过全局 - 本地注意回答模块生成答案,其中使用了 OCR 和通用词汇识别技术。实验证明该模型在 Tex
→
PDF
4 years ago
Prev
Next