Jan, 2024

GRAM: 跨页面多模态问答的全局推理

TL;DR在多页文档问答中,我们提出了 GRAM 方法,它能够无需复杂的预训练,将单页模型扩展到多页设置,并通过引入文档级指定层和可学习令牌来增强本地页面级理解,促进跨页面信息流动。大量实验表明 GRAM 在多页文档问答基准测试中具有先进的性能,展示了我们方法的有效性。