隐私感知的文档视觉问答

Dec, 2023

Privacy-Aware Document Visual Question Answering

Rubèn Tito, Khanh Nguyen, Marlon Tobaben, Raouf Kerkouche, Mohamed Ali Souibgui...

TL;DR在本研究中，我们首次探索了文档视觉问答（DocVQA）领域的隐私问题，并提出了使用联邦学习和差分隐私的基线训练方案，用于保护敏感信息以及避免模型记忆效应所导致的私人信息泄露。

Abstract

document visual question answering (docvqa) is a fast growing branch of document understanding. Despite the fact that documents contain sensitive or copyrighted information, none of the current →

document visual question answering docvqa privacy guarantees multi-modal llm models federated learning

发现论文，激发创造

联邦文档视觉问答：一项初步研究

使用联邦学习方案训练基于分散私密文档数据的共享模型，以丰富各种领域中 DocVQA 模型的数据异质性，结合自预训练技术和集中自适应优化的联邦文档 VQA 训练方法优于 FedAvg 基线，并通过大量实验提供关于使用联邦学习训练 DocVQA 模型的多方面分析，为未来相关研究提供洞见。

May, 2024

V-Doc：带有文档的视觉问答系统

V-Doc 是一种使用文档图像和 PDF 文件的问答工具，主要用于帮助研究人员和普通非深度学习专家生成、处理和理解文档的视觉问答任务，支持使用文档图像生成和使用抽取式和生成式问答对，可用于各种数据集和模型，并且通过声明性、框架不可知平台高度可扩展。

May, 2022

基于离散推理实现复杂文档理解

本文提供了一个名为 TAT-DQA 的新的数据集，包含来自财务报告的，既有半结构化表格和非结构化文本，又有 16558 个问答对。此外，作者发明了一种新的文档 VQA 模型 MHST，可以智能地处理来自多种模态的信息，从而有效地回答不同类型的问题，并运用离散推理来训练。结果表明，该模型明显优于基线方法，但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。

Jul, 2022

PDF-VQA：一个新的 PDF 文档实际应用 VQA 数据集

本研究提出了一种基于文档的视觉问答模型，并通过新开发的 PDF-VQA 数据集综合考察了文档理解的不同方面，包括文档元素识别、文档结构理解以及上下文理解和关键信息提取，在模型中明确地将文档元素之间的空间和层级结构关系整合起来，以此增强文档结构理解的能力。

Apr, 2023

多页文档视觉问答使用自注意力评分机制

多页文档视觉问答任务的新方法和有效训练策略，利用视觉特征对文档页进行相关性评分，可在多页场景中提供与最新技术相媲美的性能，且对 GPU 资源需求较少。

Apr, 2024

文档集合视觉问答

文章提出一个新的任务 —— 使用文献收集进行文档理解，提出了一个新的数据集和新的评估指标和基线模型

Apr, 2021

PDF-MVQA：基于 PDF 的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档，我们提出了 PDF-MVQA，旨在解决现有研究主要关注稀缺文本的现实世界文档的问题，而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集，用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架，同时考虑文档布局中的文本内容和关系，将页面级别理解扩展到整个多页文档。通过这项工作，我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

Apr, 2024

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

JDocQA: 用于生成语言模型的日语文档问答数据集

日本文献の質問応答 (JDocQA) は、PDF 形式の 5,504 の文書と日本語でアノテーションされた 11,600 の質問応答インスタンスから成る大規模な文書ベースの QA データセットであり、質問応答アプリケーションにおいて実用的な質問を提供するために回答不可能な質問を組み込んでいます。

Mar, 2024