大规模技能匹配：高效的自由职业者与项目对接

Sep, 2024

大规模技能匹配：高效的自由职业者与项目对接

Skill matching at scale: freelancer-project alignment for efficient multilingual candidate retrieval

Warren Jouanneau, Marc Palyart, Emma Jouffroy

TL;DR本研究针对多语言环境下自由职业者与项目匹配的挑战，提出了一种创新的神经检索架构。该方法利用预训练的多语言语言模型编码项目描述和自由职业者信息，通过对历史数据进行对比损失训练，显著提升了技能匹配的效率和准确性，超越了传统方法。

Abstract

Finding the perfect match between a job proposal and a set of freelancers is not an easy task to perform at scale, especially in multiple languages. In this paper, we propose a novel neural retriever architecture that tackles this problem in a →

发现论文，激发创造

conSultantBERT: 微调的Siamese句子BERT用于匹配招聘职位和求职者

该论文重点研究了将文本信息构建为有用的嵌入表示，将其作为特征输入职位与求职者匹配模型。作者使用了一种fine-tuning的Siamese Sentence-BERT模型并解决了多语言和跨语言匹配等挑战。结果表明，作者的模型显著优于现有的基于TF-IDF加权特征向量和BERT嵌入表示的方法。此外，作者还发现该模型成功匹配了跨语言和多语言的文本内容。

Sep, 2021

使用多语言双编码BERT学习匹配工作候选人

使用候选人放置历史生成标记的CV-vacancy数据集，并使用带有bi编码器结构的多语言BERT来微调，添加余弦相似度对数损失层，从而实现简历和职位匹配络的可维护和可伸缩的管道，以及学习桥接词汇差距和处理语言障碍的多语言转换器可以帮助我们减少歧视。

Sep, 2021

ESCOXLM-R: 面向职场领域的多语言基于分类法的预训练

该研究引入了 ESCOXLM-R 语言模型，基于 XLM-R 进行领域自适应预训练，并使用 ESCO 定义了动态掩码语言建模和诱导跨语言 ESCO 类别关系的目标，实现了在 4 种语言的 6 个序列标记和 3 种分类任务上的国内领先性能，并发现其在短跨度上表现更好，并且在实体级和表面级跨度 F1 上优于 XLM-R，可能是由于 ESCO 包含短技能和职业标题，并编码实体级信息的原因。

May, 2023

作为内置零迁移ESCO技能匹配器的大型语言模型

The paper presents an end-to-end zero-shot system for skills extraction from job descriptions based on large language models, achieving promising results on skills extraction against the ESCO framework without human annotations.

Jul, 2023

VacancySBERT：招聘领域标题和技能的语义相似性搜索表示方法

该论文关注应用于人力资源领域的深度学习语义搜索算法，旨在开发一种新颖的方法来训练Siamese网络以将招聘广告中提到的技能与职位标题关联起来，并通过基于共现信息的语义相似性搜索来找到用于标题标准化的候选人。通过比较FastText、BERT、SentenceBert和JobBert等基准模型，已经证明了该新方法相对于其他通用文本编码器在准确率上的显著改进，通过VacancySBERT和VacancySBERT（带技能）分别实现了10%和21.5%的改进，该论文还开发了一个开源的基准模型，以促进该领域的进一步研究。

Jul, 2023

基于技能-职业图上下文的大型语言模型压缩在人力资源相关任务中的应用

我们通过介绍简历-职位描述基准（RJDB）来填补缺失的综合性人力资源任务的基准以及没有具备竞争力的小型模型的挑战，该基准精心制作，以满足各种人力资源任务，包括简历与职位描述匹配和解释、从简历中提取技能和经验，以及编辑简历。我们通过从大型语言模型（LLM）中提取领域特定知识，并依靠精心策划的技能-职业图来确保多样性并为LLMs提供上下文生成，创建该基准。我们的基准包括超过5万个职位描述、匹配的简历和不匹配的简历的三元组。使用RJDB，我们训练多个较小的学生模型。我们的实验表明，学生模型达到了与教师模型（GPT-4）相近或更好的性能，验证了该基准的有效性。此外，我们探索了在零-shot和弱监督方式下，RJDB在对技能提取和简历-职位描述匹配的未出现在分发数据上的实用性。我们发布我们的数据集和代码以促进进一步的研究和工业应用。

Nov, 2023

JOBSKAPE: 生成合成职位发布的框架以增强技能匹配

通过采用合成训练数据进行技能匹配的最新方法已经显示出有希望的结果，减少了耗时且昂贵的标注需求。本文介绍了JobSkape，一个专门设计用于增强技能与分类匹配的合成数据生成框架，其中包含了一个综合的开源合成数据集SkillSkape，用于技能匹配任务。同时引入了多种离线度量来显示我们的数据集类似于真实世界数据。此外，我们还提出了一个利用大型语言模型（LLMs）进行技能提取和匹配任务的多步骤流水线，并与已知的有监督方法进行基准测试。我们总结出，在真实世界数据上的下游评估结果能够超过基线效果，凸显了其效力和适应性。

Feb, 2024

在职业市场领域利用大型语言模型重新思考技能提取

通过在6个统一化技能提取数据集上使用大语言模型（LLMs）的少样本学习能力，我们研究了上下文学习的使用，以克服手动注释数据的高依赖性对这些方法的泛化能力的限制。我们展示了LLMs能够更好地处理在技能提取任务中句法复杂的技能提及，尽管在性能上不及传统监督模型。

Feb, 2024

通过自然语言处理进行计算机工作市场分析

利用自然语言处理技术从职位描述中提取相关信息，包括解决训练数据的稀缺性、标注指南的缺乏以及从职位广告中提取有效信息的不足等挑战，最终通过引入抽取方法和多个数据集相辅相成的检索增强模型来提高整体性能，并将提取到的信息置于特定分类体系中。

Apr, 2024

基于编码器的命名实体识别与大型语言模型在俄罗斯职位空缺技能提取中的比较分析

本研究解决了从职位描述中提取关键技能的挑战，比较了基于编码器的传统命名实体识别（NER）方法与大型语言模型（LLM）在俄罗斯职位空缺技能提取中的效果。研究发现，特别是经过调优的DeepPavlov RuBERT NER模型在多项性能指标上超过了LLM，表明传统NER模型在技能提取方面效率更高，能够更好地帮助求职者与雇主需求对接。

Jul, 2024