InstructDoc：一份用于指令驱动的视觉文档理解零样本泛化的数据集

AAAIJan, 2024

InstructDoc：一份用于指令驱动的视觉文档理解零样本泛化的数据集

InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructions

Ryota Tanaka, Taichi Iki, Kyosuke Nishida, Kuniko Saito, Jun Suzuki

TL;DR我们研究通过人工编写的指令，在真实世界的文档上完成各种视觉文档理解（VDU）任务，例如问答和信息提取。为此，我们提出了 InstructDoc，这是第一个包含 30 个公开可用的 VDU 数据集的大规模集合，每个数据集都有统一格式的多样指令，涵盖了 12 项不同任务并包括多种文档类型 / 格式。此外，为了提高 VDU 任务的泛化性能，我们设计了一种新的基于指令的文档阅读和理解模型 InstructDr，通过可训练的桥接模块连接了文档图像，图像编码器和大型语言模型（LLMs）。实验证明，通过给定的指令，InstructDr 能够有效适应新的 VDU 数据集、任务和领域，且胜过现有的多模态 LLMs 和 ChatGPT 无需特定训练。

Abstract

We study the problem of completing various visual document understanding (VDU) tasks, e.g., question answering and information extraction, on real-world documents through human-written instructions. To this end,

visual document understanding human-written instructions instructdoc vdu tasks instructdr

发现论文，激发创造

指引的重要性

介绍了 Instruction Document Visual Question Answering（iDocVQA）数据集和 Large Language Document（LLaDoc）模型，用于训练文档分析的语言 - 视觉（LV）模型和文档图像上的预测。

Feb, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024

DocVQA: 一个针对文档图像的 VQA 数据集

我们介绍了一个名为 DocVQA 的基于文档图像的视觉问答数据集，并提出了该数据集与其他 VQA 和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错，但与人类表现相比存在较大的表现差距，需要特别在理解文档结构的问题上提高模型性能。

Jul, 2020

文档理解数据集与评估（DUDE）

本文探讨文档人工智能 (Document AI) 社区重新评估当前的方法学，并挑战创建更具实际意义的基准标准的任务。文档理解数据集和评估 (DUDE) 旨在纠正在理解视觉丰富文档方面的研究进展。我们提出了新的数据集，其中包含来自各个行业、领域和多页的视觉丰富文档的各种问题、答案和布局。此外，我们通过创建多任务和多领域的评估设置来推动当前方法的界限，以更准确地模拟真实世界中强大的泛化和适应低资源环境的需求。通过 DUDE 旨在为社区树立一个更实用、长期的基准标准，并希望它将导致未来的扩展和贡献，以应对实际挑战。最后，我们的工作说明了在文档人工智能中寻找更有效的方式来对语言、图像和布局进行建模的重要性。

May, 2023

零样本视频问答的问题引导视觉描述

Q-ViD 是一种简单的视频问答方法，通过使用一个单一的指令感知开放式视觉语言模型（InstructBLIP）来处理视频问答问题，生成视频帧描述，并结合一个大型语言模型（LLM）进行多项选择问答，取得了与当前最先进模型相媲美甚至更高的性能。

Feb, 2024

VisLingInstruct: 用自主指令优化提升多模式语言模型中的零样本学习

VisLingInstruct 通过自主评估和优化教学文本的过程，改善了多模态语言模型中视觉感知和语言表达的协同作用，这在零样本学习中显著提高了多模态任务的性能。

Feb, 2024

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

看得见才能相信：促进 GPT-4V 实现更好的视觉指导调优

通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令，我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V，并通过实验验证和案例研究证明，高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。

Nov, 2023

Instruct-Imagen: 多模态指导下的图像生成

本文介绍了 instruct-imagen 模型，它解决了异质图像生成任务并且可以泛化到未知任务。我们通过引入多模态指导来完成图像生成的任务表示，利用自然语言将不同的模态（如文本、边缘、风格、主题等）融合在一起，使得丰富的生成意图可以以统一的格式标准化。接着，我们通过两阶段的框架，利用预训练的文本到图像扩散模型进行精调来构建 instruct-imagen 模型。在第一阶段，我们利用检索增强训练方法使模型能够在外部多模态上更好地进行生成。随后，我们对不同的需要视觉语言理解的图像生成任务进行精调，每个任务都与一个包含任务本质的多模态指导相匹配。在各种图像生成数据集上进行的人工评估表明，instruct-imagen 在领域内与先前特定任务的模型相媲美甚至超越，并展示了对未知和更复杂任务的有希望的泛化能力。

Jan, 2024

InstructIE：一个基于中文指令的信息提取数据集

该论文介绍了一种新的信息提取任务，名为 Instruction-based IE，旨在要求系统根据特定的指示或指南提取信息。作者从中文维基百科和高质量众包注释实例构造了一个名为 InstructIE 的数据集，并评估了各种基线模型在该数据集上的性能。结果表明，当前的模型表现出有希望的性能，但仍有改进的空间。此外，作者进行了综合案例分析，强调了 Instruction-based IE 任务中固有的挑战。

May, 2023