从实体中心的视角重新思考预训练的文本布局模型的评估
本论文提出了一种基于多模态 Transformer 的分层框架(LAMPreT),并通过分层预训练来训练模型,以实现对文档布局的理解及其内部内容的分类和组合,来更好地进行文本块填充和图像建议两项任务。
Apr, 2021
本文提出了用于扫描文档图像的 LayoutLM 模型,实现了文本和布局信息的联合学习,将其应用于信息提取等实际文档图像理解任务中,成果在多项下游任务中达到最新的技术水平,代码和预训练模型可公开获取。
Dec, 2019
本文提出了 Prompt-based Text Entailment (PTE) 低资源命名实体识别技术,将命名实体识别作为文本蕴含任务,并使用 Pre-trained Language Models 和 entity type-specific prompts 来获得高性能。通过在 CoNLL03 数据集和 MIT Movie 及 Few-NERD 数据集上进行的实验,结果表明该方法 PTE 在低资源场景下的表现优于微调的对照组。
Nov, 2022
在这篇论文中,我们使用了一种预先训练在商业文件集合上的语言模型 LayoutLM,并引入了两个新的预训练任务,进一步提高其提取相关信息的能力。第一个任务旨在更好地理解文档的复杂布局,第二个任务侧重于数字值及其数量级。通过这些任务,模型可以学习到更好上下文化的扫描文档表示。我们还引入了一种新的后处理算法,用于解码信息提取中的 BIESO 标签,对于复杂实体的处理效果更好。我们的方法显著提高了对公共数据集(从 93.88 提高到 95.50 F1 得分)和私有数据集(从 84.35 提高到 84.84 F1 得分)中的支出收据、发票和采购订单的提取性能。
Sep, 2023
本文提出一种基于英文与中文标注数据的新型评估基准,旨在测试预训练语言模型在语法、语义、知识、推理和计算等多个方面的能力,并提供满足充分性和紧凑性的标注标记级别的理由,以及人性化的实例扰动,从而使用照常理性度量:诚实度的角度。实验结果表明,预训练语言模型在知识和计算方面表现非常糟糕;尤其是在理由较短的情况下,其所有维度上的可信度都远远不足够,并且在语法感知数据上评估的预训练语言模型不稳健。
Jul, 2022
最近,在大规模使用纯文本数据训练大型语言模型(LLMs)的研究进展中,出现了强大的在许多领域和任务中的泛化能力,包括特定于文档的任务。与此相反,有一种趋势是训练多模态转换器架构,专门为文档理解而设计,旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性,通过使用布局增强的方式。我们探索了插入修改和基于规则的方法,以将纯文本 LLM 提示与布局信息进行增强。我们的实验研究了商用 ChatGPT 模型和开源 LLM Solar 的效果。我们证明了使用我们的方法,两个 LLMs 在各种标准文档基准测试中均展现出改进的性能。此外,我们研究了有噪音的 OCR 和布局错误的影响,以及 LLMs 在利用文档布局方面的局限性。我们的结果表明,通过布局增强,相较于仅使用纯文本文档,纯文本 LLMs 在文档理解方面的性能可以提高多达 15%。总之,在纯文本 LLM 或多模态文档转换器之间进行最佳模型选择时,应考虑这种方法。
Feb, 2024
本文通过基准测试两种不同的神经网络模型:多模态语言模型 (LayoutXLM) 和 图神经网络 —— 边缘卷积网络 (ECN),对文本中的关系抽取任务进行研究。本论文探讨了如何整合各种情况,讨论了复杂文档信息提取领域中需要考虑的一些方法论问题。
May, 2022
本文提出了一种基于 LayoutXLM 的多模态预训练模型,用于多语言文档理解,并在名为 XFUND 的多语言表单理解基准数据集上进行了验证,结果表明 LayoutXLM 模型在跨语言预训练方面优于现有的 SOTA 模型。
Apr, 2021
从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时减轻标注成本,我们提出了一个半监督的流程,用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程,我们为科学界提供了一些新资源,包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后,我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率,同时我们也讨论了其剩余的局限性。
Nov, 2023
本文研究信息提取的问题,使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息,并引入新的微调目标,通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验,并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3% ,在简历中 F1 绝对值增加了 4.7%。在少数样本情况下,我们的方法需要比基线少 30 倍的批注数据才能在约 90%的 F1 达到相同的性能水平。
May, 2020