- 基于文档的知识发现与微服务架构
基于微服务架构的知识发现中的关键挑战和应对方法,包括数字化、关键词提取、文档相似度计算、自然语言数据库查询以及独立提供抽取的信息,还提供了相应的参考设计指南。
- KSW: 基于高棉停用词的关键词提取字典
该论文介绍了一种针对高棉语的关键词提取方法 KSW,利用了专门的停用词词典,并通过实施预处理方法来去除停用词,从而提高有意义的关键词的提取效果。实验证明,与先前方法相比,KSW 在准确性和相关性方面取得了显著的改进,彰显了其推进高棉语文本处 - 领域驱动术语提取的大型语言模型比较研究
关键词在文本数据的人机处理中起着至关重要的作用,关键词 / 领域驱动的术语提取是自然语言处理中的一个关键任务,本文评估了使用大型语言模型(LLMs)进行关键词提取的性能,并讨论了提示工程和幻觉在结果评估中的影响,同时指出了使用 LLMs 进 - LLM-TAKE:利用大型语言模型的主题感知关键词提取
利用大型语言模型(LLMs)生成基于上下文的关键词,提出了主题感知关键词提取(LLM TAKE)的框架,通过避免输出非信息或敏感关键词,并减少在 LLMs 中普遍存在的幻觉,为电子商务领域的产品生成提取和抽象主题的两个变体,通过对三个真实数 - 一种基于云端的机器学习流水线,用于高效地从客户评论中提取洞察信息
本文介绍了一种基于云的系统,使用机器学习方法集成到管道中,能够从客户评论中提取洞察力,其复合模型使用基于 transformer 的神经网络、基于向量嵌入的关键字提取和聚类,可以更好地满足高效信息提取、提取信息的主题建模和用户需求的要求,并 - 基于事件不确定性的 Twitter 专题上下文向量关联
该研究在提取 Twitter 上文本的关键词时,使用主题事件及数据关联来发现主题上下文,并使用主题上下文向量对其权重进行量化,最终对上下文主题向量进行聚类从而得出关键词。实验结果显示该系统较现有的基于 TF 和 TF-IDF 的方法在聚类结 - 智能推荐职位和应聘者过滤的职业平台
本研究开发了一种智能求职系统,通过自动关键词提取、职位推荐和简历筛选等算法进行工作和求职者匹配,同时增加了若干高级特性提升用户体验。
- 基于图的语义提取文本分析
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用 - AdaptKeyBERT: KeyBERT 的 Few-Shot 和 Zero-Shot 领域自适应的基于注意力机制方法
该论文提出了 AdaptKeyBERT—— 一种基于 LLM 的关键词提取训练管道,它通过在下游领域适应的预训练阶段引入正则化注意力的概念来训练关键字提取器,具有 Few-shot Learning 和 Zero-Shot Learning - MM使用文本对文本转换变压器从短文本中提取关键词
探讨了 Text-To-Text Transfer Transformer (T5) 语言模型在波兰语 (plT5) 中对短文本段进行内在和外在关键词提取的相关性。通过对新的波兰开放科学元数据语料库(POSMAC)的评估,比较了四种不同方法 - MM2021 TREC 临床试验赛道中的 UNIMIB
探究了不同的查询表示方法结合不同的检索模型对检索性能的影响,同时提出了一种基于关键词提取方法的检索模型,并通过实验表明,该方法结合传统或基于决策论的相关性模型,可以显著提高查询效果。
- 面向自动标记的天生优越:新目标函数实现更快更好
本文介绍基于关键词提取和自动标记技术的 BAT 自动标记系统,根据新的目标函数和学习率策略,增强了 F1 和 F2 得分,提高了标记准确性和转化率。
- 使用虚拟边从复杂网络模型的文本中提取关键词
本研究发现使用嵌入式边缘可以改善共现网络的可区分性,最佳表现是在考虑低百分比的虚拟嵌入式边缘时,结构和动态网络指标的比较分析揭示了度数,PageRank 和可访问性是模型中表现最佳的指标。
- 利用高速网络的科学论文多任务推荐系统
本论文提出了一种基于深度学习的多任务推荐系统,用于从科学论文中提取关键信息,包括关键字、作者以及推荐评分等。系统采用 RNN、Highway 和 CNN 等多种深度学习技术,以端到端的方式学习上下文语义,解决冷启动等问题。
- 跨视角脑解码
本文旨在研究跨视图零样本大脑解码在图像说明、图像标记、关键词提取和句子形成等任务中的有效性,研究表明,对于跨视图零样本的大脑解码是切实可行的,并提出了各种视图解码的模型,如图像说明,图像标记,关键词提取和句子形成。
- 从空气中诞生:零样本跨语言关键词检测是否比无监督更好?
本文旨在探究是否可以利用预训练的多语言语言模型,对于没有训练数据的语言进行零样本跨语言关键字提取,并且比较它们与无监督关键字提取器的表现差异。研究结果表明,预训练模型在所有六种语言中都能在零样本条件下,比无监督模型表现更好。
- KDDVisualTextRank:基于图结构无监督内容提取技术,用于自动化广告文本到图像搜索
研究了如何通过关键词提取,实现在线广告投放中通过短文本查询获得相关广告图片。借助广告图像查询日志,VisualTextRank 算法成功解决了该问题,它通过提取广告文本(或文本增强版本)中的关键词来生成广告图片查询,显著提高了图片搜索准确度 - EMNLP回归基础:计量分析统计和基于图的术语加权方案对关键词提取的影响
本研究比较了统计和基于图形的术语加权方法,揭示了较少知名的词汇特异性相对于 tf-idf 的优势,以及统计和基于图形方法之间的定性差异,并提出了有关从业人员的建议。
- ACL使用 TF-IDF 标签集匹配扩展神经关键字提取
本文介绍了一种基于神经网络等新方法提取关键词的技术,在欧洲新闻媒体产业中的应用展示出了相当不错的实用效果。
- AAAI科学出版物分类方案中的无监督关键词提取和聚类
本文研究如何使用自动化方法提取科学文献中的关键词和短语,包括集成评分、语义网络和聚类等技术,并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明,集成评分可以提高关键词提取性能,基于 ConceptNet 语义网络的词嵌入具有