多模态上下文图谱理解和自监督开放式理解的教材问题回答
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法,以处理复杂的语境和多模态数据,并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG,我们的架构在非图表多项选择题中相较于基线模型,在验证集上精度提升了 4.12%,在测试集上提升了 9.84%。
Feb, 2024
利用预训练语言模型(LMs)和知识图谱(KGs)解答问题存在识别相关知识和进行联合推理的挑战。通过与先前发表的 QAGNN 方法进行比较,我们发现将相关的知识事实纳入问题上下文有助于提高问题回答性能,而将知识图谱融入语言模型中则只能带来少量增长,这表明将上下文知识事实结合起来可能对增强问题回答性能更具影响力。
Dec, 2023
本研究提出了一种基于知识库和相关文章文本联合的开放领域问答方法,通过检索和阅读一个包含文本段的图表结构,并采用跨相关段落传播信息的方式更新文本段落表示,从而在 WebQuestions、自然问题和 TriviaQA 三个任务的数据集上实现了 2-11% 的性能提升。
Nov, 2019
本文提出一种多模态图变换器,它利用了文本和视觉数据的多模态信息,并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力,适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA,VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性,表明多模态图变换器优于 Transformer 模型基线。
Apr, 2023
该研究提出了一种新模型 QA-GNN,通过关联系统知识图和语言模型,实现对问题与答案之间的共同推理,并取得了在常识和生物医学领域 QA 测试中优于现有模型的表现。
Apr, 2021
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
这篇文章介绍了将图谱模态集成到大型语言模型中的挑战,并提出了一个用于评估和发展图谱 - 语言模型的问答数据集 GraphextQA,同时介绍了一种名为 CrossGNN 的基准模型。通过实验证明了使用图谱的有用性和该任务的困难性。
Oct, 2023
本文提出一种通过利用外部实体描述来为知识理解提供上下文信息的方法,将其作为预训练语言模型的附加输入,以解决知识图谱融合到语言建模中的问题,并获得了常识 QA 数据集中最先进的结果和 OpenBookQA 中非生成模型中最好的结果。
Dec, 2020