CFRet-DVQA：用于文档视觉问答的逐步细化检索和高效调整

Feb, 2024

CFRet-DVQA：用于文档视觉问答的逐步细化检索和高效调整

CFRet-DVQA: Coarse-to-Fine Retrieval and Efficient Tuning for Document Visual Question Answering

Jinxu Zhang, Yongqi Yu, Yu Zhang

TL;DR通过检索和高效调整的方式，CFRet-DVQA 方法实现了文档视觉问答中的信息定位和答案生成，展示出与单页和多页文档相关领域的最先进或竞争性的结果。

Abstract

document visual question answering (DVQA) is a task that involves responding to queries based on the content of images. Existing work is limited to locating information within a single page and does not facilitate cross-page question-and-answer interaction. Furthermore, the token lengt

document visual question answering cfret-dvqa retrieval efficient tuning large language model

发现论文，激发创造

细粒度迟期交互多模态检索用于检索增强视觉问答

Fine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augmented Visual Question Answering (RA-VQA) by addressing limitations in the retriever and achieving approximately 8% improvement in PRRecall@5. Equipped with state-of-the-art models, RA-VQA achieves around 61% VQA score in the OK-VQA dataset.

Sep, 2023

PDF-MVQA：基于 PDF 的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档，我们提出了 PDF-MVQA，旨在解决现有研究主要关注稀缺文本的现实世界文档的问题，而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集，用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架，同时考虑文档布局中的文本内容和关系，将页面级别理解扩展到整个多页文档。通过这项工作，我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

Apr, 2024

基于离散推理实现复杂文档理解

本文提供了一个名为 TAT-DQA 的新的数据集，包含来自财务报告的，既有半结构化表格和非结构化文本，又有 16558 个问答对。此外，作者发明了一种新的文档 VQA 模型 MHST，可以智能地处理来自多种模态的信息，从而有效地回答不同类型的问题，并运用离散推理来训练。结果表明，该模型明显优于基线方法，但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。

Jul, 2022

一种基于强化学习的粗细粒度问答系统

本文提出了一种基于强化学习的粗到精问答（CFQA）系统，使用多步骤的深度强化学习模型来处理文档，可以处理较短或较长的文档，相较于先前的 QA 模型，在 WIKEREADING、WIKIREADINGLONG、CNN 和 SQuAD 等四个 QA 数据集上得到了 1.3%-1.7% 的准确率和 1.5 倍至 3.4 倍的训练速度改善。

Jun, 2021

一种灵活框架的零样本文档级问答检测、检索和理解

本文提出了一种三阶段文件 QA 方法，包括从 PDF 中提取文本，从提取的文本中检索证据以形成良好的上下文，以及从上下文中提取 3 种类型的知识（抽取式、生成式或布尔式）。通过对 QASPER 的评估，DRC 系统在交付更优的上下文选择的同时，Answer-F1 达到了 +7.19 的提高。结果表明，DRC 在科学文献 QA 中有很大的亮点。

Oct, 2022

一种对称双编码密集检索框架用于知识密集型视觉问答

本研究提出一种将检索器和阅读器相结合的新 KI-VQA 流程，并通过 DEDR 和 MM-FiD 两种方法进行知识密集型视觉问答 (KI-VQA) 任务，在两个著名的 KI-VQA 数据集 OK-VQA 和 FVQA 上进行了广泛评估，证明了该方法在准确率上优于现有技术。

Apr, 2023

长文本问答：一种迭代计划 - 检索 - 生成的方法

提出了一种具有迭代规划、检索和生成过程的长篇问答（Long-form question answering，LFQA）模型，该模型通过迭代过程直到生成给定问题的完整答案，解决了既有模型在处理复杂问题和知识聚合方面的限制，并在各种文本和实际指标上优于现有模型。

Nov, 2023

VQA4CIR：用视觉问答提升组合图像检索

通过使用视觉问答技术来解决复合图像检索中的不一致性问题，提出了 VQA4CIR 方法，该方法能够显著提高检索性能，实验证明其优于目前的 CIR 方法。

Dec, 2023

带有外部知识的检索增强型视觉问答

我们提出了一种联合训练方案，该方案包括可微分的 DPR 集成答案生成，以便系统可以以端到端的方式进行训练。我们的实验表明，我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。我们还引入了新的诊断指标来分析检索和生成之间的交互作用，我们的模型的强大检索能力显着降低了训练所需的检索文档数量，从而在答案质量和训练所需的计算方面产生了显着的收益。

Oct, 2022

使用高效的双模态融合回答数据可视化相关问题

该研究提出了一种名为 PReFIL 的算法，通过融合图像和语言特征来智能地回答关于数据可视化的图表的问题，达到了优于现有系统和人类基线的效果，并且还能够通过一系列问题对图表进行重构。

Aug, 2019