从含噪技能标签中学习职位名称相似度

Jul, 2022

从含噪技能标签中学习职位名称相似度

Learning Job Titles Similarity from Noisy Skill Labels

Rabih Zbib, Lucas Alvarez Lacasa, Federico Retyk, Rus Poves, Juan Aizpuru...

TL;DR该论文提出了一种无监督表示学习方法，使用嘈杂的技能标签训练作业职称相似性模型，证明其在文本排名和工作归一化等任务中非常有效。

Abstract

Measuring semantic similarity between job titles is an essential functionality for automatic job recommendations. This task is usually approached using supervised learning techniques, which requires training data

发现论文，激发创造

从工作描述聚合网络中学习职位表示

通过职位描述聚合组件和双向对比损失函数，我们提出了一种学习职位标题的替代框架，并在域内和域外设置中评估了我们方法的性能，相比于基于技能的方法，取得了更好的表现。

Jun, 2024

VacancySBERT：招聘领域标题和技能的语义相似性搜索表示方法

该论文关注应用于人力资源领域的深度学习语义搜索算法，旨在开发一种新颖的方法来训练 Siamese 网络以将招聘广告中提到的技能与职位标题关联起来，并通过基于共现信息的语义相似性搜索来找到用于标题标准化的候选人。通过比较 FastText、BERT、SentenceBert 和 JobBert 等基准模型，已经证明了该新方法相对于其他通用文本编码器在准确率上的显著改进，通过 VacancySBERT 和 VacancySBERT（带技能）分别实现了 10% 和 21.5% 的改进，该论文还开发了一个开源的基准模型，以促进该领域的进一步研究。

Jul, 2023

利用标签语义在嘈杂标记下提取公司与行业匹配的更高性能

在金融机构中，为公司分配适当的行业标签是一项关键任务，本文提出了一种基于语义相似度匹配的 ML 管道，通过使用标签相似矩阵和最小标记策略，实现了对噪声的显著改进和稳健的预测能力。

Dec, 2022

JobBERT：通过技能了解工作职称

通过将预训练语言模型与从招聘信息中提取的技能标签协同出现信息相结合，我们提出了一种职位称号的神经表示模型， JobBERT 方法相比使用通用语句编码器，在职位标题规范化任务中表现出显著提高，并发布了一个新的评估基准。

Sep, 2021

使用弱监督从职位发布中提取技能

利用弱监督技术中的技能提取，结合欧洲技能、能力、资格和职业分类法，使用潜在表示法在职位广告中发现类似的技能标签，相对于基于令牌级别和语法模式的基准测试，该方法显示出强正信号。

Sep, 2022

SkillRec：基于数据的职业技能推荐方法，为职业洞察提供帮助

本文介绍了 Skill Recommendation（SkillRec）系统，它基于职位名称，收集并确定了职位所需的技能集，并通过单词 / 句子嵌入技术和前馈神经网络为职位提供建议。在 6,000 个职位标题和描述的数据集上进行初步实验后，SkillRec 表现出很高的准确性和 F1 分数。

Feb, 2023

软实力匹配的表示学习

本文提出一种基于短语匹配的方法，旨在区分与候选人相关的软技能短语和其他实体提及。使用多种方法来确定软技能以及进行文本分类，使用神经网络中的 LSTM 模型达到了最高 83.92% 的召回率。

Jul, 2018

描述标签与术语描述的匹配

语义文本相似性在软件工程中具有重要作用，在工程师需要澄清描述性标签（例如，业务术语、表列名）的语义的任务中，这些标签通常由过于简短或过于通用的词组成，并在其信息技术系统中出现。我们将这种问题定义为将描述性标签与词汇表描述匹配的任务。然后，我们提出了一个框架，利用现有的语义文本相似性测量（STS），并使用语义标签增强和基于集合的上下文化来增强它，其中前者是一种检索与给定标签相关的句子的方法，而后者是一种计算两个上下文之间相似度的方法，其中每个上下文均来自一组文本（例如，同一表中的列名）。我们对两个由公开可用数据源生成的数据集进行了实验，结果表明，所提出的方法能够帮助底层 STS 正确匹配更多的描述性标签与描述。

Oct, 2023

具有实例相关噪声的鲁棒性产品分类

本文研究了在电商商品大数据中存在的噪声标签及其对产品分类模型的影响，提出了一种基于实例依赖噪声的训练解决方案，在多个数据集及噪声方法上进行了实验，结果表明当噪声率不能忽略且数据分布高度倾斜时，分类任务的局限性。

Sep, 2022

无监督标签描述排名和聚合用于零样本分类器

本文提出了一种基于标签描述的零样本文本分类器，其使用概率模型来在无监督的情况下选择最佳标签描述，并在情感、话题和立场等方面的各种数据集和任务上进行了评估，展示了多个标签描述的聚合可以提高性能。

Apr, 2022