多视图图表示学习用于回答混合数值推理问题
本文提出了一种关系图增强型的混合表文本数值推理模型,将表 - 文本混合内容的数值问题回答建模为表达式树生成任务,并在公开基准测试中验证了其性能。
Sep, 2022
构建一个新的 QA benchmark (MultiHiertt),使用金融报告构建。包含多个表以及更长的非结构化文本,大部分表格是分层的;提供了复杂的数量推理的细粒度注释;提出了一个新的 QA 模型 MT2Net,它首先应用事实检索来提取相关事实,然后使用推理模块对检索到的事实进行符号推理。与现有基线相比,实验结果表明 MultiHiertt 对现有基线提出了严峻的挑战。
Jun, 2022
本研究提出了一种针对金融文本和表格数据的数字推理问题回答系统,该系统包括检索器模块、生成器模块和集成模块。在私人测试集上的表现可达 69.79 个执行精度。
Jun, 2022
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
本研究提出一种基于语义导向的分层图结构的 Doc2SoarGraph 框架,旨在通过利用问题和文档中不同元素(如数量、日期)之间的差异和相关性来增强离散推理能力,以回答视觉丰富的表文档中的问题。实验结果显示,我们的框架在 TAT-DQA 数据集上表现出优异的性能,相较于最佳基线模型,精确匹配和 F1 得分分别提高了 17.73% 和 16.91%,达到了最新的最佳水平。
May, 2023
提出了一种名为 MuGER^2 的多粒度证据检索和推理方法,通过设计统一的检索器来学习异构数据的多粒度证据,在回答推理中,提出了一个证据选择器,基于学习到的多颗粒度证据导航细粒度证据,显著提高混合问题回答(HQA)的绩效。
Oct, 2022
通过提出一种非自回归程序生成框架,可以同时独立生成包含运算符和操作数的完整程序元组,从而显着提高程序生成速度,同时解决了误差积累问题,实验结果显示在 MultiHiertt 数据集上,我们的模型比强基准模型有很大的改进(+7.97EM 和 + 6.38F1 分),并且在程序生成方面速度更快(21 倍),同时我们的方法在增加数值推理步骤的情况下性能的下降也显着小于基线模型。
Nov, 2022
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键 - 值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在 KRVQR 和 FVQA 数据集上实现了新的最先进的准确性。
Mar, 2022
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020