BriefGPT.xyz
大模型
Ask
alpha
关键词
document-based visual question answering
搜索结果 - 3
关键词驱动的句子选择增强基于 BERT 的视觉问答
本文描述了 PoliTo 对文档视觉问答竞赛的方法,特别是我们利用文本方法和特定的采样策略,通过细调 BERT 模型,关注包含敏感关键词的句子以回答自然语言问题,如引用表格或图片的问题,以实现高性能的结果。
PDF
9 months ago
Jaeger:一种基于串联的多 Transformer VQA 模型
本文介绍了 Jaegar,一种基于连接的多转换器 VQA 模型,用于解决基于文档的视觉问答中的挑战。该模型利用 RoBERTa large 和 GPT2-xl 作为特征提取器,并通过将两个模型的输出进行连接来加强其表示能力,以减少计算复杂性
→
PDF
9 months ago
PDF-VQA:一个新的 PDF 文档实际应用 VQA 数据集
本研究提出了一种基于文档的视觉问答模型,并通过新开发的 PDF-VQA 数据集综合考察了文档理解的不同方面,包括文档元素识别、文档结构理解以及上下文理解和关键信息提取,在模型中明确地将文档元素之间的空间和层级结构关系整合起来,以此增强文档结
→
PDF
a year ago
Prev
Next