基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用
通过排除每种数据类型并独立评估文本和布局数据,我们研究了文本、布局和视觉信息的相对预测能力,证明了针对关系提取任务训练联合表示的有效性。我们的实验表明,双模态的文本和布局方法表现最佳,同时文本是最重要的单一预测因子,布局几何形状也具有高度预测能力。此外,我们强调在哪些情况下视觉信息可以增强性能。
Nov, 2022
本文研究信息提取的问题,使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息,并引入新的微调目标,通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验,并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3% ,在简历中 F1 绝对值增加了 4.7%。在少数样本情况下,我们的方法需要比基线少 30 倍的批注数据才能在约 90%的 F1 达到相同的性能水平。
May, 2020
该研究构建了基于文档的对话系统,旨在从视觉丰富的文档(VRD)中提取结构和语义知识,以生成准确的回复,为此创建了一个布局感知的文档级信息提取数据集 LIE,并开发了基准方法考虑人类的布局特征,实验结果表明布局对基于 VRD 的提取至关重要,系统演示也验证了提取的知识能够帮助用户找到关心的答案。LIE 包含来自产品和官方文档中 4,061 页的 62k 注释,成为我们所知最大的基于 VRD 的信息提取数据集。
Jul, 2022
本文提出了一种基于区域感知的关系抽取方法 (RE$^2$),它利用边缘感知的图注意力网络学习实体之间的交互,并考虑实体之间由其区域级表示定义的空间关系,同时引入约束目标以使模型符合关系抽取任务的内在约束。实验结果表明,我们的方法在各种数据集、语言和领域中具有优越性。
May, 2023
本文提出了一种名为 GeolayoutLM 的多模态框架,通过显式地建模提前准备阶段的几何关系来解决 Visual information extraction 领域中 semantic entity recognition 和 relation extraction 模型中的局限性,并在相关基准测试中取得了竞争性的高分数。
Apr, 2023
通过引入两个新的少样本基准数据集,本研究针对可视化丰富的文档(VRD)中的键 - 值关系三元组的提取,提出了一种变分方法,其中包含关系 2D 空间先验知识和原型化校正技术,实验结果表明该方法的有效性,并为实际应用开辟了新的可能性。
Mar, 2024
本研究提出了 DocReL,一种文本关系表示学习框架,其中包含一种新的对比学习任务 Relational Consistency Modeling(RCM),并利用了上下文信息来改进视觉丰富文档中关系理解,如表结构识别,关键信息提取和阅读顺序检测。
May, 2022
通过引入 AutoRE 模型和 RHF (Relation-Head-Facts) 的新型 RE 提取范式,结合 QLoRA (Parameters Efficient Fine Tuning) 算法构建了一个易于扩展的 DocRE 框架,在 RE-DocRED 数据集上展现了最佳性能,超过 dev 和 test 集合上分别为 TAG 10.03% 和 9.03% 的最新结果。
Mar, 2024
Fine-tuned large language models integrated into the Retrieval-Augmented-based approach demonstrate exceptional performance in identifying implicit relations, surpassing previous results on SemEVAL and achieving substantial gains on TACRED, TACREV, and Re-TACRED datasets.
Jun, 2024