检索增强的结构化生成：以工商文档信息提取为工具使用

May, 2024

检索增强的结构化生成：以工商文档信息提取为工具使用

Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

Franz Louis Cesista, Rui Aguiar, Jason Kim, Paolo Acilo

TL;DR商业文档信息提取（BDIE）是将一大段非结构化信息（原始文本、扫描文档等）转换为下游系统可以解析和使用的结构化格式的问题。本文提出了一种名为 RASG 的检索增强结构化生成的新的 BDIE 框架，它在 BDIE 基准测试中实现了最先进的 KIE 任务和 LIR 任务的结果。

Abstract

business document information extraction (BDIE) is the problem of transforming a blob of unstructured information (raw text, scanned documents, etc.) into a structured format that downstream systems can parse and use. It has two main tasks: →

business document information extraction key-information extraction line items recognition retrieval augmented structured generation large language models

发现论文，激发创造

商业文件信息提取：朝着实用基准的方向

本文研究信息提取的问题，探讨了文档信息提取问题、数据集、基准测试等方面，提出了机器学习中的关键信息定位、提取和条目识别问题，并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。

Jun, 2022

BIDER：基于关键支持证据的高效检索增强型 LLMs 中知识不一致性的桥接

介绍了 BIDER，通过知识合成、监督微调和偏好对齐将检索文档转化为关键支持证据（KSE），通过强化学习从 LLM 的信息获取偏好中获得最大化输出，评估结果表明 BIDER 提高了 LLM 的答案质量 7%，同时减少了检索文档中输入内容长度 80%，优于现有方法。该方法的 KSE 模拟有效地装备了 LLM 以获得准确的问题回答。

Feb, 2024

BuDDIE：一个用于多任务信息提取的商业文档数据集

通过介绍 BuDDIE（商业文档信息抽取数据集），本文提供了一个包含丰富且稠密注释的多任务数据集，其中包含 1,665 个现实世界商业文档。该数据集涵盖了文档分类、关键实体提取和视觉问答等多个任务，并提供了每个任务的基线结果。

Apr, 2024

LLMs 知道他们所需：利用缺失信息导向框架强化检索辅助生成

通过实验证明语言模型具有提取信息和判断缺失信息的能力，基于此发现，本文提出了一种 Missing Information Guided Retrieve-Extraction-Solving（MIGRES）范式，利用缺失信息的识别生成有针对性的查询来引导后续的知识检索，同时设计了一种基于句子级别的重新排序过滤方法，以过滤掉无关的内容，并结合语言模型的信息提取能力从干净的文档中提取有用信息，从而增强 Retrieval-Augmented Generation（RAG）的整体效力。大量实验证明了所提出的 MIGRES 方法的优越性，并分析实验证明了我们提出的模块的有效性。

Apr, 2024

基于布局的文档驱动对话信息提取：数据集、方法和演示

该研究构建了基于文档的对话系统，旨在从视觉丰富的文档（VRD）中提取结构和语义知识，以生成准确的回复，为此创建了一个布局感知的文档级信息提取数据集 LIE，并开发了基准方法考虑人类的布局特征，实验结果表明布局对基于 VRD 的提取至关重要，系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释，成为我们所知最大的基于 VRD 的信息提取数据集。

Jul, 2022

检索增强的基于生成的关系抽取

信息抽取是将非结构化文本数据转化为结构化格式的一种变革性过程，本研究提出了一种提高关系抽取任务性能的基于检索增强生成的关系抽取方法，并通过使用不同的大型语言模型对其进行了有效性评估。结果显示，该方法在信息抽取任务中表现出卓越的性能，特别是在 TACRED 数据集及其变体上。此外，与以往的方法相比，该方法在 TACRED 和 TACREV 数据集上的表现也非常出色，凸显了它在自然语言处理的关系抽取任务中的有效性和潜力。

Apr, 2024

DocILE 2023：文档信息本地化与提取

该研究提供了一个大规模的公开数据集：DocILE，用于从半结构化商业文件中提取关键信息和识别项目行。该数据集将用于业界的基准测试，并鼓励计算机视觉、自然语言处理和信息检索等领域的贡献。

Jan, 2023

面向任务的对话中基于非结构化知识的高效检索增强生成

本文总结了我们在第九届对话系统技术挑战赛（DSTC 9）第一轨中的工作，我们提出了一种基于层次分类和序列嵌入的检索和生成方法，以实现针对任务导向对话中利用非结构化文本信息的回答生成。

Feb, 2021

GIELLM：利用相互增强效应的日语通用信息抽取大型语言模型

信息抽取是自然语言处理中的基石，传统上被细分为不同的子任务。大型语言模型的出现预示着一种新的范式转变，即单一模型能够解决多个信息抽取子任务。本文引入通用信息抽取大型语言模型（GIELLM），它通过统一的输入输出架构整合了文本分类、情感分析、命名实体识别、关系抽取和事件抽取。这次创新标志着一个模型首次同时处理如此多样的信息抽取子任务。值得注意的是，GIELLM 利用了互相增强效应（MRE），在综合任务中提高了性能，与各自孤立的任务相比。我们的实验证明，在六个日语混合数据集中，我们在五个数据集中取得了最先进的结果，明显超过了 GPT-3.5-Turbo。此外，使用新颖的文本分类关系和事件抽取（TCREE）数据集进行的独立评估证实了 MRE 在文本和词分类中的协同优势。这一突破为大多数信息抽取子任务在一个统一的 LLM 框架下合并提供了可能，不再需要专门的微调任务特定模型。

Nov, 2023

一般低资源信息提取的渐变模仿强化学习

本文研究了利用低资源信息抽取（LRIE）的方法，实现从未标注数据中学习信息抽取任务。我们提出了一种名为 Gradient Imitation Reinforcement Learning（GIRL)）的方法，使用强化学习方法来鼓励伪标签数据模仿有标签数据的梯度下降方向，从而在低资源情况下，提高命名实体识别、关系提取和事件提取任务的性能。

Nov, 2022