MMSep, 2023

层次序列标注的简历解析:实证研究

TL;DR提取信息从简历通常被制定为一个两阶段的问题,首先对文档进行分段,然后分别处理每个段落以提取目标实体。相反,我们将整个问题分为两个层次的序列标注 —— 行和标记,并研究用于同时解决两个任务的模型架构。我们建立了英文、法文、中文、西班牙文、德文、葡萄牙文和瑞典文的高质量简历解析语料库。基于这些语料库,我们提出了实验结果,证明了所提模型在信息提取任务中的有效性,优于之前工作中引入的方法。我们对提出的架构进行了消融研究。我们还分析了模型性能和资源效率,并描述了在生产环境中部署模型的权衡。