高度异质性文档集的探索性分析
该论文通过对网络上论文数据的主题分割,构建出一个包含七百万篇文献数据的多主题数据集,并创建出一套主题分类体系以注释每篇论文的主题归属,从而可以将其作为既包含各学科领域文献数据的异构文献资源集,又可分割为单一研究领域所对应的同质文献集的多主题数据集。
May, 2022
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。
Jan, 2014
本文介绍了一个商业知识发现平台的术语提取子系统,采用全面且无监督注释器来跨越高度技术领域。该注释器通过将子词分词的新颖形态信号与使用通用领域预训练句子编码器计算的术语和主题以及内部术语相似度度量相结合,提取术语。通过在大型未标记语料库上运行 UA 生成的训练数据进行变压器模型的微调或预训练,使得此设置能够提高预测性能,同时减少 CPU 和 GPU 的推理延迟。该注释器为所有未标注语料库提供了非常有竞争力的基线。
Oct, 2022
本文提出了一种新颖的无监督方法,即 EmbedRank,通过使用句子嵌入从单个文档中提取关键短语,进而在标准数据集上实现了比基于图的现有系统更高的 F-score,适用于实时处理大量 Web 数据,并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性,200 份投票的用户调查表明,我们的高多样性选择得到人类的接受。
Jan, 2018
本文引入了一种无监督的辨别模型,用于在线文档检索。我们仅使用文本证据,通过无监督学习分布式词表示来避免显式特征工程。我们将我们的模型与最先进的无监督统计向量空间和概率生成方法进行比较,并发现我们的模型在大多数情况下可以与监督方法匹配,且算法成本较低,因此可以取得与所谓的基于档案的方法相同的检索性能水平。
Aug, 2016
通过基于有意义的句子的图结构的嵌入方法,在大规模异构数据中高效提取信息,特别是文本数据的处理和分类问题中,展示出与其他算法相比显着更好的分类性能。
Apr, 2024
本文研究如何使用自动化方法提取科学文献中的关键词和短语,包括集成评分、语义网络和聚类等技术,并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明,集成评分可以提高关键词提取性能,基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能,但前者计算效率更高。最后,以术语为级别的语义关键词聚类可以将相似的术语组合在一起,适合用于构建分类方案。
Jan, 2021
科学文献搜索是一种探索性方法,现有的科学文献搜索系统通常限于基于关键词的查询搜索,我们提出 NLP-KG 系统,支持在不熟悉的自然语言处理 (NLP) 领域探索研究文献,并提供语义搜索、调研论文检索、研究领域层次图和聊天接口等功能,以帮助用户全面地探索和理解不同领域之间的关系、NLP 中的陌生概念以及找到相关的研究文献。
Jun, 2024
我们提出了一种基于监督学习的自动提取文档关键词短语的方法,该方法利用候选短语的简单计算的统计和位置特征,不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示,我们的方法达到了明显较高的准确性,相对于包括所有基于深度学习的无监督模型在内的多个最新方法,它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的,但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实,使得我们的方法在很大程度上具备了无监督方法的优势。
Mar, 2024