text-based visual question answering | BriefGPT

关键词text-based visual question answering

搜索结果 - 4

探索基于图推理的文本视觉问答中的稀疏空间关系
TextVQA 中解决冗余关系推理的稀疏空间图网络 (SSGN) 被提出，通过空间感知关系修剪技术识别最重要的连接或消除冗余连接，在图学习中考虑物体 - 物体关系和 OCR-OCR 标记关系。实验证明 SSGN 在 TextVQA 和 ST
PDF9 months ago
简单并不容易：文本 VQA 和 TextCaps 的简单强基准
本篇论文提出了一种简单的关注机制，通过将 OCR 令牌特征分别发送到可视化和语言关注分支，并将它们发送到流行的 Transformer 解码器以生成答案或标题，从而在 TextVQA 和 ST-VQA 等多个基准测试上取得最新的最佳表现，并
PDF4 years ago
RUArt：一种新的以文本为中心的文本视觉问答解决方案
本文提出了一种新的基于文本的 VQA 方法 RUArt，它可以通过读取并理解图像中的文本、场景对象以及与之间的关系来回答给定问题，实验结果表明，该方法可以有效地探索文本的语境信息和挖掘文本与物体之间的稳定关系。
PDF4 years ago
COLING面向文本视觉问答的定位感知答案预测
本文提出了一种基于局部信息的答案预测网络，即 LaAP-Net，用于解决现有基于光学字符识别（OCR）或固定词汇的文本 VQA 系统中的局限性，其中定位信息得到了更好的利用。此外，提出了一种多模式融合技术，即 COR，为定位任务提供了额外的
PDF4 years ago