大规模无噪声预训练下的文档实体检索

Jun, 2023

大规模无噪声预训练下的文档实体检索

Document Entity Retrieval with Massive and Noisy Pre-training

Lijun Yu, Jin Miao, Xiaoyu Sun, Jiayi Chen, Alexander G. Hauptmann...

TL;DR本文提出了一种从网络上收集海量、嘈杂、弱标注数据的方法，以弥补许多 VDER 设置中训练数据不足的缺陷，也给出了一个名为 DocuNet 的收集数据集，它不需要依赖特定文档类型或实体集，从而在各种 VDER 任务中通用应用。借助 DocuNet，我们提出了一种轻量级多模态体系结构 UniFormer，在没有额外的视觉相关性的情况下从文本、布局和图像裁剪中学习统一的表征。在不同的设置中实验我们的方法并展示了在传统实体检索和少样本学习设置中，当将这个大规模数据集与 UniFormer 相结合时的改进。

Abstract

visually-rich document entity retrieval (VDER) is a type of machine learning task that aims at recovering text spans in the documents for each of the entities in question. VDER has gained significant attention in

visually-rich document entity retrieval machine learning docunet uniformer few-shot learning

发现论文，激发创造

面向任务个性化的多模态少样本学习在视觉丰富的文档实体检索中的应用

本研究旨在解决实体级少样本视觉文档实体检索 (VDER) 任务的挑战，并通过引入任务感知的元学习框架以及新的数据集 FewVEX，显著提高了流行的元学习基准模型的鲁棒性。

Nov, 2023

通过视觉 - 非对称一致性学习在文档图像中增强的语义实体识别

从视觉丰富的表单样式文档（VFDs）中提取属于预定义类别的有意义实体是一项具有挑战性的任务。本文提出了一种全新的 Vancl 方法，通过引入颜色先验知识来增强模型对细粒度视觉和布局特征的捕捉能力，并在基准数据集上实验证明我们的方法明显优于强大的 LayoutLM 系列基线，展示了该方法的有效性，并通过研究不同的颜色方案对该方法的影响，为优化模型性能提供了启示。我们相信我们的工作将激发未来的多模态信息提取研究。

Oct, 2023

BuDDIE：一个用于多任务信息提取的商业文档数据集

通过介绍 BuDDIE（商业文档信息抽取数据集），本文提供了一个包含丰富且稠密注释的多任务数据集，其中包含 1,665 个现实世界商业文档。该数据集涵盖了文档分类、关键实体提取和视觉问答等多个任务，并提供了每个任务的基线结果。

Apr, 2024

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

MuVER: 多视角实体表示优化第一阶段实体检索

该研究提出了一种新方法，称为多视图实体表示（MuVER），旨在提高实体检索的性能，通过启发式搜索方法构造实体描述的多视图表示，并通过这种方式提高候选实体的质量。该方法在 ZESHEL 上取得了最新的性能，并在三个标准实体链接数据集上改善了候选者的质量。

Sep, 2021

噪音感知训练的布局感知语言模型

使用噪声感知训练 (NAT) 的多个最先进的提取模型来减少企业环境下自定义提取器所需的人工标注样本数量，提高性能，并降低人力成本。

Mar, 2024

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

DocFormer: 文档理解的端到端 Transformer

本文介绍了基于多模态变压器的 DocFormer 架构，它以无监督预训练方式运行，能够更好地理解各种格式和布局的文档，并结合了文本、视觉和空间特征，实现了多模态自注意层和共享学习空间嵌入等特点，使其在四个数据集上均取得了业界领先的结果。

Jun, 2021

跨语言命名实体识别的增强迭代知识蒸馏

本文描述了微软在交叉语种命名实体识别中的新实践方法，使用源语种的标注数据和目标语种的无标注数据，采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。

Jun, 2021

将语言模型与视觉实体识别连接

AutoVER 是一种用于视觉实体识别的自回归模型，通过使用检索增强的约束生成来扩展多模态大型语言模型，以解决在域外实体上表现不佳但在需要视觉定位推理的查询上表现出色的问题。该方法通过在与序列到序列目标并行训练的同时对困难的负样本对进行对比训练，学习区分庞大标签空间内的相似实体。在推理过程中，一系列检索到的候选答案通过删除无效的解码路径明确地指导语言生成。所提出的方法在最近提出的 Oven-Wiki 基准测试的不同数据集划分上取得显著改进，实体已见划分的准确率从 32.7% 提高至 61.5%。在未见和查询划分上也通过大幅度的两位数优势展示出卓越性能。

Feb, 2024