Jan, 2022

从注册和法律文件中提取信息的序列到序列模型

TL;DR本文研究使用序列到序列模型作为信息提取的替代方案,针对法律和注册文件等领域的文本,采用微调模型以在结构化格式输出的同时提取信息,学习后处理步骤以消除基于规则的方法,精简流程。我们提出了一种新的方法来对齐输出和输入文本,证明该方法是传统流程的一种替代方案。实验结果表明,该方法适用于四个真实世界的数据集。