SkillGPT:一种使用大型语言模型进行技能提取和标准化的 RESTful API 服务
研究大规模语言模型的发布与使用,利用调整技术进行优化以改善使用性,此文介绍OpenAssistant Conversations数据库的发布,使用该人类生成的、人类注释的数据集进行训练后得到了全新的软件OpenAssistant。相对于ChatGPT,OpenAssistant的答复被用户更青睐,其发布的代码和数据完全遵循宽松许可证,可供研究者使用。
Apr, 2023
本研究使用7个信息提取任务评估了ChatGPT在理解用户意图和提供合理回答方面的总体能力,发现其在标准信息提取设置中的表现差,但在OpenIE设置中表现出色,并提供高质量和可信任的解释,但存在预测自信度过高导致校准性低的问题。
Apr, 2023
本文介绍了通过fine-tuning instruction data实现ChatGPT之类聊天语言模型的有效性,提出了一个系统设计的、不涉及人类查询、包含150万高质量多轮对话的UltraChat聊天数据集,使用该数据集fine-tune了LLaMA模型得到了更好的性能表现,成为领先的开源数据集。
May, 2023
The paper presents an end-to-end zero-shot system for skills extraction from job descriptions based on large language models, achieving promising results on skills extraction against the ESCO framework without human annotations.
Jul, 2023
通过引入ToolLLM,一个包括数据构建、模型训练和评估的通用工具使用框架,我们展示了它在增强自然语言模型的规划和推理能力方面的显著影响。我们通过用ChatGPT创建一个工具使用指导数据集ToolBench,并使用深度优先搜索决策树(DFSDT)扩展搜索空间,有效地获取有效的解决方案路径。通过对LLaMA进行微调后得到ToolLLaMA,我们的评估器ToolEval显示ToolLLaMA在执行复杂指令和推广到未见过的API方面表现出卓越的能力,并与ChatGPT有着相当的性能。为了使流程更加实用,我们设计了一个神经API检索器以为每个指令推荐适当的API,省去了手动选择API的繁琐步骤。
Jul, 2023
LLM4Jobs是一种利用大型语言模型(LLMs)进行职位编码的新型无监督方法,通过在合成和实际数据集上进行严谨实验证明,LLM4Jobs始终超过无监督最先进的基准,展示了其在不同数据集和细粒度上的多功能性。
Sep, 2023
对大规模语言模型与用户需求之间的差距进行了全面的分析,发现当前NLP研究与真实世界应用的需求存在显著差异,用户经常要求的任务与学术研究中常见的任务存在较大偏差,如设计和规划任务等,为更好地满足用户需求提供了启示。
Oct, 2023
我们通过介绍简历-职位描述基准(RJDB)来填补缺失的综合性人力资源任务的基准以及没有具备竞争力的小型模型的挑战,该基准精心制作,以满足各种人力资源任务,包括简历与职位描述匹配和解释、从简历中提取技能和经验,以及编辑简历。我们通过从大型语言模型(LLM)中提取领域特定知识,并依靠精心策划的技能-职业图来确保多样性并为LLMs提供上下文生成,创建该基准。我们的基准包括超过5万个职位描述、匹配的简历和不匹配的简历的三元组。使用RJDB,我们训练多个较小的学生模型。我们的实验表明,学生模型达到了与教师模型(GPT-4)相近或更好的性能,验证了该基准的有效性。此外,我们探索了在零-shot和弱监督方式下,RJDB在对技能提取和简历-职位描述匹配的未出现在分发数据上的实用性。我们发布我们的数据集和代码以促进进一步的研究和工业应用。
Nov, 2023
通过采用合成训练数据进行技能匹配的最新方法已经显示出有希望的结果,减少了耗时且昂贵的标注需求。本文介绍了JobSkape,一个专门设计用于增强技能与分类匹配的合成数据生成框架,其中包含了一个综合的开源合成数据集SkillSkape,用于技能匹配任务。同时引入了多种离线度量来显示我们的数据集类似于真实世界数据。此外,我们还提出了一个利用大型语言模型(LLMs)进行技能提取和匹配任务的多步骤流水线,并与已知的有监督方法进行基准测试。我们总结出,在真实世界数据上的下游评估结果能够超过基线效果,凸显了其效力和适应性。
Feb, 2024
通过在6个统一化技能提取数据集上使用大语言模型(LLMs)的少样本学习能力,我们研究了上下文学习的使用,以克服手动注释数据的高依赖性对这些方法的泛化能力的限制。我们展示了LLMs能够更好地处理在技能提取任务中句法复杂的技能提及,尽管在性能上不及传统监督模型。
Feb, 2024