BriefGPT.xyz
大模型
Ask
alpha
关键词
docvqa
搜索结果 - 4
TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档
我们介绍了 TextMonkey,一个大型多模态模型(LMM),该模型针对以文本为中心的任务,包括文档问题回答(DocVQA)和场景文本分析。通过采用零初始化的 Shifted Window Attention,我们在更高的输入分辨率下实现
→
PDF
4 months ago
隐私感知的文档视觉问答
在本研究中,我们首次探索了文档视觉问答(DocVQA)领域的隐私问题,并提出了使用联邦学习和差分隐私的基线训练方案,用于保护敏感信息以及避免模型记忆效应所导致的私人信息泄露。
PDF
7 months ago
多层次多模态 Transformer 用于多页文档问答任务
本研究扩展了针对单页文档的 DocVQA 任务到多页文档的场景,提出了一个基于 T5 架构的新的分层方法 Hi-VT5,用于处理长的多页文档,并且通过实验证明本方法可以在单阶段完成回答问题和提供包含答案相关信息的页码,该信息可以作为可解释性
→
PDF
2 years ago
DocVQA: 一个针对文档图像的 VQA 数据集
我们介绍了一个名为 DocVQA 的基于文档图像的视觉问答数据集,并提出了该数据集与其他 VQA 和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错,但与人类表现相比存在较大的表现差距,需要特别在理解文档结构的问题上提高
→
PDF
4 years ago
Prev
Next