Dec, 2022

多层次多模态 Transformer 用于多页文档问答任务

TL;DR本研究扩展了针对单页文档的 DocVQA 任务到多页文档的场景,提出了一个基于 T5 架构的新的分层方法 Hi-VT5,用于处理长的多页文档,并且通过实验证明本方法可以在单阶段完成回答问题和提供包含答案相关信息的页码,该信息可以作为可解释性量度。