BriefGPT.xyz
大模型
Ask
alpha
关键词
text-vqa
搜索结果 - 3
多问题多答案文本视觉问答
通过多问多答(MQMA)方法,在编码 - 解码变压器模型中进行文本 - VQA(Visual Question Answering)。通过多次将不同问题和内容输入到模型中进行预测,实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持
→
PDF
8 months ago
本地化、分组和选择:通过场景文本建模提升文本 - VQA
本文提出了一种名为 Localize, Group, and Select (LOGOS) 的模型,它利用场景文本聚类和光学字符识别(OCR)技术来更好地定位图像的关键信息、实现跨模态理解,并从不同来源的 OCR 文本中选择最佳答案,成功解
→
PDF
3 years ago
TAP: 面向 Text-VQA 和 Text-Caption 的文本感知预训练
本文提出了一种名为 TAP 的方法,通过使用光学字符识别引擎生成的图像文字来预训练模型,从而帮助模型在三种模态 —— 文本单词、视觉对象和场景文本中学习更好的对齐表示,在多个任务上均表现出卓越的性能。
PDF
4 years ago
Prev
Next