Jaeger：一种基于串联的多 Transformer VQA 模型

Oct, 2023

Jaeger：一种基于串联的多 Transformer VQA 模型

Jaeger: A Concatenation-Based Multi-Transformer VQA Model

Jieting Long, Zewei Shi, Penghao Jiang, Yidong Gan

TL;DR本文介绍了 Jaegar，一种基于连接的多转换器 VQA 模型，用于解决基于文档的视觉问答中的挑战。该模型利用 RoBERTa large 和 GPT2-xl 作为特征提取器，并通过将两个模型的输出进行连接来加强其表示能力，以减少计算复杂性和推理时间。实证结果表明，该模型在 PDF-VQA 数据集的 C 任务上具有竞争力的性能。

Abstract

document-based visual question answering poses a challenging task between linguistic sense disambiguation and fine-grained multimodal retrieval

document-based visual question answering linguistic sense disambiguation fine-grained multimodal retrieval jaegar concatenation-based multi-transformer vqa model

发现论文，激发创造

使用指针增强多模态 Transformer 进行迭代式答案预测的 TextVQA

本研究提出了一种基于多模态 Transformer 架构的新型 TextVQA 模型，采用自我注意力机制进行不同模态的融合，并通过动态指针网络进行迭代式答案解码，相比于现有方法大幅度提高了 TextVQA 任务的性能。

Nov, 2019

增强的视觉问答：卷积的比较分析与文本特征提取

本研究论文比较了复杂的文本模型和简单的局部文本特征模型在 VQA 中的效果，并发现采用复杂的文本编码器并不总是最优的选择。基于这一发现，论文提出了一种改进的模型 ConvGRU，通过引入卷积层增强了问题文本的表示，在 VQA-v2 数据集上实现了更好的性能而不显著增加参数复杂性。

May, 2024

基于注意力引导的生成模型用于抽取式问答

本文提出了一种新的方法，利用 Transformer 模型进行抽取式问答。该方法利用预训练的生成式模型，并结合内部 cross-attention 机制实现了良好的表现，同时使用较少的参数，使模型能够进行幻觉式推断，并提高模型重排相关段落的能力。

Oct, 2021

GRAM: 跨页面多模态问答的全局推理

在多页文档问答中，我们提出了 GRAM 方法，它能够无需复杂的预训练，将单页模型扩展到多页设置，并通过引入文档级指定层和可学习令牌来增强本地页面级理解，促进跨页面信息流动。大量实验表明 GRAM 在多页文档问答基准测试中具有先进的性能，展示了我们方法的有效性。

Jan, 2024

一个面向问题的多要素注意力网络用于问答

本文提出一种新颖的端到端问题聚焦的多因素注意网络，用于回答提问文本中的问题，通过张量变换实现多因素关注编码，以对散布在多个句子中的信息进行建模，并采用最大化注意聚合机制来对提问文本进行编码，从而实现对问题类型的隐式推断，并在三个大型挑战性问题回答数据集中实现了显著的性能提升。

Jan, 2018

多层次多模态 Transformer 用于多页文档问答任务

本研究扩展了针对单页文档的 DocVQA 任务到多页文档的场景，提出了一个基于 T5 架构的新的分层方法 Hi-VT5，用于处理长的多页文档，并且通过实验证明本方法可以在单阶段完成回答问题和提供包含答案相关信息的页码，该信息可以作为可解释性量度。

Dec, 2022

多问题多答案文本视觉问答

通过多问多答（MQMA）方法，在编码 - 解码变压器模型中进行文本 - VQA（Visual Question Answering）。通过多次将不同问题和内容输入到模型中进行预测，实现对同一图像的多问题回答预测。提出几个新颖的架构修改来支持 MQMA，并且通过 MQMA 去噪的预训练任务，使模型能够对多个问题以及相关答案进行对齐和划分。在多个文本 - VQA 数据集上，MQMA 预训练模型实现了与先前最先进方法相比的明显改进（OCR-VQA：+2.5％，TextVQA：+1.4％，ST-VQA：+0.6％，DocVQA：+1.1％）。

Nov, 2023

Visconde: 使用 GPT-3 和神经重排序的多文档问答

本文提出了一个名为 Visconde 的问答系统，利用 few-shot 大型语言模型和先进的搜索引擎检索多个文档中的支持证据用于回答问题，评估结果表明检索机制是主要的瓶颈，为了得到更好的回答表现，模型在回答问题前给出解释是有效的。

Dec, 2022

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

多模态问答的多模态图形转换器

本文提出一种多模态图变换器，它利用了文本和视觉数据的多模态信息，并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力，适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA，VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性，表明多模态图变换器优于 Transformer 模型基线。

Apr, 2023