高棉语义搜索引擎:数字信息访问和文档检索
该论文介绍了一种针对高棉语的关键词提取方法 KSW,利用了专门的停用词词典,并通过实施预处理方法来去除停用词,从而提高有意义的关键词的提取效果。实验证明,与先前方法相比,KSW 在准确性和相关性方面取得了显著的改进,彰显了其推进高棉语文本处理和信息检索的潜力。KSW 资源,包括停用词词典,可在以下 GitHub 仓库中获取:(此 https URL)。
May, 2024
本文研究将深度神经网络模型与词汇模型相结合应用于搜索引擎的检索阶段,并在 TREC 数据集上进行了实证研究,结果表明该方法得到了很好的效果,并揭示了语义方法、词汇方法以及二者结合的不同特点。
Oct, 2020
本文提出语义知识图谱(SKG)来集成抽象和其他元信息中的语义概念以表示语料库,并利用半监督流程进行实体抽取和实体标准化,以及设计了一个数据流系统来展示如何灵活和交互地进行各种语义查询。最后,在可视化文献的基础上进行研究并提供现实世界的用例来展示 SKG 的有用性。
Jun, 2023
基于 Bing Copilot(Bing 聊天)的实证分析结果显示,人们使用生成式搜索引擎进行更高认知复杂度的知识工作任务,相较于传统搜索引擎。
Mar, 2024
本研究旨在开发一种创新的语义查询处理系统,允许用户获取澳大利亚国立大学计算机科学(CS)研究员们所产生的研究作品的全面信息。该系统将大型语言模型(LLMs)与澳大利亚国立大学 CS 领域的 ANU Scholarly Knowledge Graph(ASKG)相结合,ASKG 是存储 ANU 所有研究相关产物的结构化知识库。通过结合 Deep Document Model(DDM)进行全面文档表示和 KG-enhanced Query Processing(KGQP)进行优化复杂查询处理的知识图融合方法,以解决传统学术知识图建设和利用方法的局限性,该方法能够获取来自 ASKG 的相关事实和文本节点,并在实验中显示出优于基准方法的结果,具有提高查询准确性和效率的潜力,为开发与 LLMs 的精确可靠交互奠定基础,强化了知识利用与自然语言理解能力。这项工作展示了该框架在学术研究场景中的实际应用,凸显其革新学术知识管理与发现的潜力,使研究人员更有效地获取和利用文档中的知识。
May, 2024
本文提出了两种新颖的模型来进行关键字建议任务,使用 Word2Vec 和 FastText 的架构,通过利用文档中的关键字共现来生成关键字嵌入向量,并采用特殊的负例抽样方法来利用关键字在学术出版物中的出现方式。此外,还提供了基于排名的评估方法,对所提出的模型进行评估,并在已知项目和自由搜索场景下显示了较大的性能改进。
Jan, 2023
该论文介绍了一种 Kea 关键短语提取算法新的优化方法,通过使用 Web 挖掘获得的统计关联程度作为短语间语义关系的指标,提高了提取出的关键短语的语义连贯性,不受领域限制且结果良好
Aug, 2003
该论文介绍了现代搜索系统中多阶段排名管道的普遍解决方案,阐述了第一阶段检索模型的传统词项模型和语义模型之间的联系,并针对词汇不匹配问题提出了基于语义的解决思路和神经语义检索技术所带来的机遇和挑战。
Mar, 2021