层次序列标注的简历解析：实证研究

MMSep, 2023

层次序列标注的简历解析：实证研究

Résumé Parsing as Hierarchical Sequence Labeling: An Empirical Study

Federico Retyk, Hermenegildo Fabregat, Juan Aizpuru, Mariana Taglio, Rabih Zbib

TL;DR提取信息从简历通常被制定为一个两阶段的问题，首先对文档进行分段，然后分别处理每个段落以提取目标实体。相反，我们将整个问题分为两个层次的序列标注 —— 行和标记，并研究用于同时解决两个任务的模型架构。我们建立了英文、法文、中文、西班牙文、德文、葡萄牙文和瑞典文的高质量简历解析语料库。基于这些语料库，我们提出了实验结果，证明了所提模型在信息提取任务中的有效性，优于之前工作中引入的方法。我们对提出的架构进行了消融研究。我们还分析了模型性能和资源效率，并描述了在生产环境中部署模型的权衡。

Abstract

Extracting information from r\'esum\'es is typically formulated as a two-stage problem, where the document is first segmented into sections and then each section is processed individually to extract the target entities. Instead, we cast the whole problem as sequence labeling in two lev

information extraction resume parsing sequence labeling model architectures resource efficiency

发现论文，激发创造

英文简历语料库的构建与预训练语言模型测试

将简历信息提取任务转化为句子分类任务，提高分类规则创造更大和更细粒度分类数据集，测试预训练语言模型在语料库的表现，并探索训练样本数量与正确率之间的关系。通过改善注释规则和增加数据集样本大小，改善了原始简历数据集的准确性。

Aug, 2022

基于序列标注的自顶向下篇章分析

本研究介绍了一种自上而下的话语分析方法，该方法的目标是将文档迭代地分段成个体话语单元，这种方法不仅消除了解码器，而且减少了划分点的搜索空间，同时使用了 LSTM 模型，在全指标下达到了最新的 RST 分析结果。

Feb, 2021

应用先进的 NLP 变压器和 LSTM 进行简历抽象文本摘要

本研究对多种 LSTM 和预训练模型（T5，Pegasus，BART 和 BART-Large）在开源数据集（Xsum，CNN/Daily Mail，亚马逊细粒度食品评论和新闻摘要）和简历数据集上进行了评估，其中 BART-Large 模型经过简历数据集微调后表现最佳，本研究的主要目标是对简历文本进行分类。

Jun, 2023

通过后光学字符识别文本处理提取简历信息

本研究旨在使用目标检测和自然语言处理技术，通过分类预处理文档并使用 DistilBERT 等模型进行信息提取，比较模型的 F1 分数变化，据此提出了一种调用预训练模型完成简历信息提取的方法。

Jun, 2023

联合学习跨度抽取与序列标注，用于商务文档信息提取

本文介绍了一种新的信息抽取模型，能够同时处理长文档和稀疏信息，通过跨度抽取和序列标注两种方法的结合来进行训练和优化，实验结果表明该模型在英语和日语的四个商业数据集上取得了良好的结果，速度也比标准跨度抽取方法更快。

May, 2022

从零开始的 RST 语法分析

本文提出了一种基于分裂决策的顶级自上而下的端到端文档级修辞结构理论（RST）框架下的论述解析方式，并采用 seq2seq 网络建模分离决策，无需依赖分段，融合高分树搜索算法得到最佳树结构，实验结果表明该解析器在端对端解析和使用黄金分段分析方面表现出色，且无需使用手工特征，速度更快，易于适应新的语言和领域。

May, 2021

从注册和法律文件中提取信息的序列到序列模型

本文研究使用序列到序列模型作为信息提取的替代方案，针对法律和注册文件等领域的文本，采用微调模型以在结构化格式输出的同时提取信息，学习后处理步骤以消除基于规则的方法，精简流程。我们提出了一种新的方法来对齐输出和输入文本，证明该方法是传统流程的一种替代方案。实验结果表明，该方法适用于四个真实世界的数据集。

Jan, 2022

HiStruct+: 基于层次结构信息的提取式文本摘要优化

通过提出的 HiStruct+ 模型，将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中，提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标，实验发现：数据集对模型效果的影响是关键因素，数据集中的明显层级结构可以取得更大的性能提升，而在模型的表现中，层级位置信息的贡献最大。

Mar, 2022

面向高效简历理解的多粒度多模态预训练方法

本文提出了一种名为 ERU 的新型模型，通过引入多模态融合变压器编码简历段落的布局感知信息，设计三个自监督任务用于无标签简历的预训练，并通过多粒度序列标记任务对模型进行微调，从简历中提取结构化信息，实验证明 ERU 的有效性。

Apr, 2024

文本分段的文档摘要

本研究旨在利用文献的内在结构，通过建立两个文本分割模型并寻找最优策略，使它们的输出预测投入到一种提取式摘要模型中，实验结果表明，提取式摘要从使用高准确度的分割方法中受益匪浅，特别地，在文档中最相关信息不在开头的情况下，分割有助于减少引导偏差问题。

Jan, 2023