GRAM: 跨页面多模态问答的全局推理

Jan, 2024

GRAM: 跨页面多模态问答的全局推理

GRAM: Global Reasoning for Multi-Page VQA

Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz...

TL;DR在多页文档问答中，我们提出了 GRAM 方法，它能够无需复杂的预训练，将单页模型扩展到多页设置，并通过引入文档级指定层和可学习令牌来增强本地页面级理解，促进跨页面信息流动。大量实验表明 GRAM 在多页文档问答基准测试中具有先进的性能，展示了我们方法的有效性。

Abstract

The increasing use of transformer-based large language models brings forward the challenge of processing long sequences. In document visual question answering (DocVQA), leading methods focus on the single-page setting, while documents can span hundreds of pages. We present

transformer-based document visual question answering gram multi-page setting state-of-the-art performance

发现论文，激发创造

多层次多模态 Transformer 用于多页文档问答任务

本研究扩展了针对单页文档的 DocVQA 任务到多页文档的场景，提出了一个基于 T5 架构的新的分层方法 Hi-VT5，用于处理长的多页文档，并且通过实验证明本方法可以在单阶段完成回答问题和提供包含答案相关信息的页码，该信息可以作为可解释性量度。

Dec, 2022

多页文档视觉问答使用自注意力评分机制

多页文档视觉问答任务的新方法和有效训练策略，利用视觉特征对文档页进行相关性评分，可在多页场景中提供与最新技术相媲美的性能，且对 GPU 资源需求较少。

Apr, 2024

基于不确定性引导的全局记忆优化多跳问答

我们提出了一种两阶段方法 GEMFormer，首先将相关信息收集到整个文档的内存中，然后与局部上下文相结合来解决多跳问答任务。结果表明，将预训练模型进行微调，使用内存增强输入，包括一些最确定的全局元素，相对于基线在三个多跳问答数据集上提高了模型的性能。我们还发现，全局显式记忆包含了正确答案所需的支持事实的信息。

Nov, 2023

Jaeger：一种基于串联的多 Transformer VQA 模型

本文介绍了 Jaegar，一种基于连接的多转换器 VQA 模型，用于解决基于文档的视觉问答中的挑战。该模型利用 RoBERTa large 和 GPT2-xl 作为特征提取器，并通过将两个模型的输出进行连接来加强其表示能力，以减少计算复杂性和推理时间。实证结果表明，该模型在 PDF-VQA 数据集的 C 任务上具有竞争力的性能。

Oct, 2023

基于图注意力网络的文档建模用于多粒度机器阅读理解

本文提出了一种新的多粒度机器阅读理解框架，利用图注意力网络对文档的不同层次进行建模，以同时学习各个级别的表示，从而提取长答案和短答案并建模其之间的依赖关系，并通过联合训练来显著提高对两种类型答案的准确性。

May, 2020

简单而有效的多段阅读理解

该论文旨在将神经段落级问题回答模型适应于以整个文档作为输入的情况，通过使用共享标准化训练目标，从多个段落中选择样本并鼓励模型产生全局正确的输出，该方法结合最先进的文档 QA 数据模型进行训练，实验证明了其在多个文档 QA 数据集上具有强大的性能表现，只需训练模型即可实现从 56.7 F1 到 71.3 F1 的大幅提高。

Oct, 2017

全局归一化阅读器

通过迭代式搜索及全局归一化决策的神经网络，提出了可提取答案的问答系统并进行了数据增强及实验优化。

Sep, 2017

一次性答案生成和证据检索

1-Pager 是第一个使用单个基于 Transformer 模型和解码过程回答问题和检索证据的系统，通过使用约束解码来增量地分割检索语料库以选择文档和答案字符串，我们展示了其在检索和答案准确性指标上与可比较的检索和阅读替代方法相竞争。1-Pager 还通过在证据语料库中进行预测的方式胜过了同等的闭书问题回答模型，虽然 1-Pager 目前还不及读取更多文档后生成答案的更昂贵系统，但我们认为它为将检索折叠到目前在 NLP 中占主导地位的序列到序列范式中提供了重要的一步。我们还展示了用于分割语料库的搜索路径易于阅读和理解，为可解释的神经检索铺平了道路。

Oct, 2023

多问题多答案文本视觉问答

通过多问多答（MQMA）方法，在编码 - 解码变压器模型中进行文本 - VQA（Visual Question Answering）。通过多次将不同问题和内容输入到模型中进行预测，实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA，并且通过 MQMA 去噪的预训练任务，使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上，MQMA 预训练模型实现了与先前最先进方法相比的明显改进（OCR-VQA：+2.5％，TextVQA：+1.4％，ST-VQA：+0.6％，DocVQA：+1.1％）。

Nov, 2023

MGDoc: 多粒度分层预训练用于文档图像理解

我们提出了一个名为 MGDoc 的新的多模态、多粒度预训练框架，通过使用统一的文本 - 视觉编码器来获得不同粒度的多模态特征，以便把多个粒度的特征投影到相同的超空间中，并设计了跨粒度的注意机制和特定的预训练任务来建模区域和单词之间的关系，并展示该模型能够学习到更好的特征，在下游任务中表现出色。

Nov, 2022