高度异质性文档集的探索性分析

KDDAug, 2013

Exploratory Analysis of Highly Heterogeneous Document Collections

Arun S. Maiya, John P. Thompson, Francisco Loaiza-Lemos, Robert M. Rolfe

TL;DR使用智能标记、基于机器学习和自然语言处理的 unsupervised 和 supervised 的标记策略，以及强大的 faceted 浏览框架，为高度异构文档集合提供了一种有效的多方面系统，其中重要的标记策略之一是 KERA 算法，如果让用户进行 buried 在海量不同信息中的军事关键技术文档定位，证明我们的系统是有效的。

Abstract

We present an effective multifaceted system for exploratory analysis of highly heterogeneous document collections. Our system is based on intelligently tagging individual documents in a purely automated fashion and exploiting these tags in a powerful →

exploratory analysis tagging strategies faceted browsing machine learning natural language processing

发现论文，激发创造

研究文章集的主题划分

该论文通过对网络上论文数据的主题分割，构建出一个包含七百万篇文献数据的多主题数据集，并创建出一套主题分类体系以注释每篇论文的主题归属，从而可以将其作为既包含各学科领域文献数据的异构文献资源集，又可分割为单一研究领域所对应的同质文献集的多主题数据集。

May, 2022

复杂问答：无监督学习方法和实验

本研究探讨了一种基于多篇文献的主题导向信息压缩技术，采用实证方法和两种无监督机器学习技术，比较它们的效果，同时通过提取不同的词汇特征和局部搜索技术，学习各种特征的权重值，最终实现了基于查询的自动摘要产生。

Jan, 2014

高度技术领域的非监督术语提取

本文介绍了一个商业知识发现平台的术语提取子系统，采用全面且无监督注释器来跨越高度技术领域。该注释器通过将子词分词的新颖形态信号与使用通用领域预训练句子编码器计算的术语和主题以及内部术语相似度度量相结合，提取术语。通过在大型未标记语料库上运行 UA 生成的训练数据进行变压器模型的微调或预训练，使得此设置能够提高预测性能，同时减少 CPU 和 GPU 的推理延迟。该注释器为所有未标注语料库提供了非常有竞争力的基线。

Oct, 2022

使用句向量进行简单的无监督关键短语抽取

本文提出了一种新颖的无监督方法，即 EmbedRank，通过使用句子嵌入从单个文档中提取关键短语，进而在标准数据集上实现了比基于图的现有系统更高的 F-score，适用于实时处理大量 Web 数据，并通过引入基于嵌入的最大边际相关性来明确地增加所选关键短语的覆盖率和多样性，200 份投票的用户调查表明，我们的高多样性选择得到人类的接受。

Jan, 2018

无监督，高效和语义型专家检索

本文引入了一种无监督的辨别模型，用于在线文档检索。我们仅使用文本证据，通过无监督学习分布式词表示来避免显式特征工程。我们将我们的模型与最先进的无监督统计向量空间和概率生成方法进行比较，并发现我们的模型在大多数情况下可以与监督方法匹配，且算法成本较低，因此可以取得与所谓的基于档案的方法相同的检索性能水平。

Aug, 2016

GuideWalk：增强学习的异构数据融合 —— 多类文档分类案例

通过基于有意义的句子的图结构的嵌入方法，在大规模异构数据中高效提取信息，特别是文本数据的处理和分类问题中，展示出与其他算法相比显着更好的分类性能。

Apr, 2024

科学出版物分类方案中的无监督关键词提取和聚类

本文研究如何使用自动化方法提取科学文献中的关键词和短语，包括集成评分、语义网络和聚类等技术，并在 “可解释的人工智能” 领域的文献数据集上进行了评估。结果表明，集成评分可以提高关键词提取性能，基于 ConceptNet 语义网络的词嵌入具有类似于上下文化词嵌入的性能，但前者计算效率更高。最后，以术语为级别的语义关键词聚类可以将相似的术语组合在一起，适合用于构建分类方案。

Jan, 2021

KEA: 实用的自动关键词提取

这篇论文介绍了 Kea，一种自动从文本中提取关键词的算法，该算法使用词法方法识别关键词并使用机器学习算法预测关键词，具有简单、强大和可公开使用等特点。

Feb, 1999

NLP-KG：一个自然语言处理科学文献的探索性搜索系统

科学文献搜索是一种探索性方法，现有的科学文献搜索系统通常限于基于关键词的查询搜索，我们提出 NLP-KG 系统，支持在不熟悉的自然语言处理 (NLP) 领域探索研究文献，并提供语义搜索、调研论文检索、研究领域层次图和聊天接口等功能，以帮助用户全面地探索和理解不同领域之间的关系、NLP 中的陌生概念以及找到相关的研究文献。

Jun, 2024

一种高效的领域无关的监督关键词抽取和排序方法

我们提出了一种基于监督学习的自动提取文档关键词短语的方法，该方法利用候选短语的简单计算的统计和位置特征，不依赖于任何外部知识库、预训练的语言模型或词嵌入。在基准数据集上的评估显示，我们的方法达到了明显较高的准确性，相对于包括所有基于深度学习的无监督模型在内的多个最新方法，它与一些基于监督深度学习的模型也具有相竞争性。尽管我们的方法是基于监督的，但它不依赖于任何 “黄金” 关键词语料库或外部知识语料库的事实，使得我们的方法在很大程度上具备了无监督方法的优势。

Mar, 2024