远程监督技能提取负采样策略设计

Sep, 2022

远程监督技能提取负采样策略设计

Design of Negative Sampling Strategies for Distantly Supervised Skill Extraction

Jens-Joris Decorte, Jeroen Van Hautte, Johannes Deleu, Chris Develder, Thomas Demeester

TL;DR本研究提出了一种基于远程监督的技能提取系统，结合ESCO分类法和多种负采样策略提高提取技能的性能，并引入手动注释的基准评估数据集，以促进该任务的进一步研究。

Abstract

Skills play a central role in the job market and many human resources (HR) processes. In the wake of other digital experiences, today's online job market has candidates expecting to see the right opportunities based on their skill set. Similarly, enterprises increasingly need to use da

发现论文，激发创造

SkillSpan: 英文职位招聘中的硬技能和软技能提取

介绍了 SKILLSPAN 数据集和相应的注释指南，比较了不同语言模型的性能，结果表明，在职位发布领域进行连续预训练和领域适应处理可以显著提高技能提取的性能。

Apr, 2022

使用弱监督从职位发布中提取技能

利用弱监督技术中的技能提取，结合欧洲技能、能力、资格和职业分类法，使用潜在表示法在职位广告中发现类似的技能标签，相对于基于令牌级别和语法模式的基准测试，该方法显示出强正信号。

Sep, 2022

作为内置零迁移ESCO技能匹配器的大型语言模型

The paper presents an end-to-end zero-shot system for skills extraction from job descriptions based on large language models, achieving promising results on skills extraction against the ESCO framework without human annotations.

Jul, 2023

利用大型语言模型进行极端多标签技能抽取训练

通过使用大型语言模型，本研究提出了一种成本有效的方法来生成准确、全合成的技能提取的标签数据集，并提出了一种对比学习策略，证明其在任务中的有效性。在三个技能提取基准测试中，我们的结果显示，与仅依赖于远程监督的字面匹配的先前发布结果相比，R-Precision@5提高了15至25个百分点。

Jul, 2023

NNOSE: 最近邻职业技能提取

通过使用多个数据集和语言模型检索相似技能，我们提出的NNOSE方法能够有效地提取职业技能并在跨数据集设置中提高性能。

Jan, 2024

职场领域的实体链接

本文首次探索在职业技能与ESCO分类之间进行实体链接，使用高效的神经模型（双编码器和自回归模型）进行技能链接的实证研究。

Jan, 2024

JOBSKAPE: 生成合成职位发布的框架以增强技能匹配

通过采用合成训练数据进行技能匹配的最新方法已经显示出有希望的结果，减少了耗时且昂贵的标注需求。本文介绍了JobSkape，一个专门设计用于增强技能与分类匹配的合成数据生成框架，其中包含了一个综合的开源合成数据集SkillSkape，用于技能匹配任务。同时引入了多种离线度量来显示我们的数据集类似于真实世界数据。此外，我们还提出了一个利用大型语言模型（LLMs）进行技能提取和匹配任务的多步骤流水线，并与已知的有监督方法进行基准测试。我们总结出，在真实世界数据上的下游评估结果能够超过基线效果，凸显了其效力和适应性。

Feb, 2024

在职业市场领域利用大型语言模型重新思考技能提取

通过在6个统一化技能提取数据集上使用大语言模型（LLMs）的少样本学习能力，我们研究了上下文学习的使用，以克服手动注释数据的高依赖性对这些方法的泛化能力的限制。我们展示了LLMs能够更好地处理在技能提取任务中句法复杂的技能提及，尽管在性能上不及传统监督模型。

Feb, 2024

基于深度学习的计算机就业市场分析：对职位发布中技能提取和分类的调查

近年来，自然语言处理（NLP）取得了显著进展，使得计算机行业市场分析领域有了快速发展。本调查旨在提供深度学习方法、数据集和特定于NLP驱动的技能提取和分类的术语的全面概述，填补这一新兴领域的不完全评估。我们对公开可用数据集的详细分类解决了关于数据集创建和特征的信息缺乏的问题。最后，对术语的关注解决了目前对重要概念（如硬技能和软技能）和技能提取和分类相关术语缺乏一致定义的问题。

Feb, 2024

通过自然语言处理进行计算机工作市场分析

利用自然语言处理技术从职位描述中提取相关信息，包括解决训练数据的稀缺性、标注指南的缺乏以及从职位广告中提取有效信息的不足等挑战，最终通过引入抽取方法和多个数据集相辅相成的检索增强模型来提高整体性能，并将提取到的信息置于特定分类体系中。

Apr, 2024