ResumeAtlas:基于大规模数据集和大型语言模型的简历分类再探索
这篇论文介绍了一种基于大型语言模型的代理框架,用于简历筛选,旨在提高招聘过程的效率和时间管理。通过实验,结果显示我们的自动简历筛选框架比传统手动方法快 11 倍,经过微调,我们的模型在简历分类和摘要及打分阶段的表现超过了 GPT-3.5 模型的基准性能,同时对 LLM 代理在最终录取阶段的决策效力进行的分析也进一步凸显了 LLM 代理在改变简历筛选过程中的潜力。
Jan, 2024
本研究旨在使用目标检测和自然语言处理技术,通过分类预处理文档并使用 DistilBERT 等模型进行信息提取,比较模型的 F1 分数变化,据此提出了一种调用预训练模型完成简历信息提取的方法。
Jun, 2023
将简历信息提取任务转化为句子分类任务,提高分类规则创造更大和更细粒度分类数据集,测试预训练语言模型在语料库的表现,并探索训练样本数量与正确率之间的关系。通过改善注释规则和增加数据集样本大小,改善了原始简历数据集的准确性。
Aug, 2022
我们提出了一种使用潜在狄利克雷分配(LDA)和 SpaCy 中的实体检测进行简历评分的方法。该方法首先使用 SpaCy 的命名实体识别(NER)从简历中提取相关实体,例如教育、经验和技能。然后,LDA 模型使用这些实体为简历评分,为每个实体分配主题概率。此外,我们对 SpaCy 的 NER 进行了详细的实体检测分析,并报告了其评估指标。使用 LDA,我们的系统将简历分解为潜在主题并提取有意义的语义表示。为了更加注重简历内容而非结构和关键词匹配,我们的模型在仅考虑技能时的准确率达到了 77%,在考虑所有属性时的整体准确率达到了 82%(如大学名称、工作经验、学位和技能)。
Jul, 2023
通过在 6 个统一化技能提取数据集上使用大语言模型(LLMs)的少样本学习能力,我们研究了上下文学习的使用,以克服手动注释数据的高依赖性对这些方法的泛化能力的限制。我们展示了 LLMs 能够更好地处理在技能提取任务中句法复杂的技能提及,尽管在性能上不及传统监督模型。
Feb, 2024
本研究对多种 LSTM 和预训练模型(T5,Pegasus,BART 和 BART-Large)在开源数据集(Xsum,CNN/Daily Mail,亚马逊细粒度食品评论和新闻摘要)和简历数据集上进行了评估,其中 BART-Large 模型经过简历数据集微调后表现最佳,本研究的主要目标是对简历文本进行分类。
Jun, 2023
我们通过介绍简历 - 职位描述基准(RJDB)来填补缺失的综合性人力资源任务的基准以及没有具备竞争力的小型模型的挑战,该基准精心制作,以满足各种人力资源任务,包括简历与职位描述匹配和解释、从简历中提取技能和经验,以及编辑简历。我们通过从大型语言模型(LLM)中提取领域特定知识,并依靠精心策划的技能 - 职业图来确保多样性并为 LLMs 提供上下文生成,创建该基准。我们的基准包括超过 5 万个职位描述、匹配的简历和不匹配的简历的三元组。使用 RJDB,我们训练多个较小的学生模型。我们的实验表明,学生模型达到了与教师模型(GPT-4)相近或更好的性能,验证了该基准的有效性。此外,我们探索了在零 - shot 和弱监督方式下,RJDB 在对技能提取和简历 - 职位描述匹配的未出现在分发数据上的实用性。我们发布我们的数据集和代码以促进进一步的研究和工业应用。
Nov, 2023
本研究对深度学习方法在自动化简历筛选中的运用进行了探讨,发现由于深度学习模型基于历史数据学习概率分布,因此其所学的词向量存在刻板印象,可能会导致偏向或偏见,需要采取偏差缓解方法。
Jul, 2023
使用大型语言模型 (LLM) 的工具 ResumeFlow,能够根据用户提供的具体工作岗位和详细简历,生成与该工作岗位相匹配的个性化简历。
Feb, 2024