May, 2024

PyTorch-IE:信息提取的快速可重现原型设计

TL;DR信息抽取(IE)旨在从非结构化或半结构化文档中导出结构化表示。本研究提出了PyTorch-IE,一种基于深度学习的框架,旨在实现IE模型的快速、可重复和可重用的实现。PyTorch-IE提供了灵活的数据模型,能够通过集成来自各种数据类型(如纯文本或半结构化文本以及图像)的相互依赖的注释层来创建复杂的数据结构。通过提供对PyTorch-Lightning用于训练、HuggingFace数据集用于数据集读取和Hydra用于实验配置等广泛使用的库的支持,PyTorch-IE为信息抽取领域的研究社区提供了重要的支持。