大规模评估主题模型和降维方法在二维文本空间化中的应用
通过结合基于词嵌入、降维和聚类的算法,本研究旨在从未分类的文本集合中获取主题;文本嵌入算法采用了 BERT 模型,这是一种在自然语言处理任务中广泛应用的神经网络架构;为了处理高维数据,使用 UMAP 降维技术,能保留原始数据的局部和全局信息的一部分;K-Means 作为聚类算法,用于获取主题;然后,使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义;该过程的结果显示出较好的数值,因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。
Oct, 2023
这篇论文旨在探讨多维降维技术对多语言 Siamese Transformer 模型在语义文本相似性任务上的性能影响,针对 Semantic Textual Similarity Benchmark 进行了测试,并通过可视化结果得出了在高维度嵌入计算中使用降维技术的潜力及其对语义意识任务性能的影响。
Apr, 2022
本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统,以帮助用户针对具体目标进行大规模文档检索,包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。
Jul, 2019
本文运用无监督机器学习算法 —— 隐含狄利克雷分配和非负矩阵分解,分析了一个大型警察事件叙述文件的主题分布,并提出了一种 k - 最近邻密度比估计方法来评估每个主题的空间密度比,从而揭示其中的趋势及规律。
Feb, 2022
使用预训练语言模型(PLMs)生成的句子嵌入引起了自然语言处理界的广泛关注,因为它们在多种下游应用中以优越的性能表示文本。然而,当在内存或计算受限设备中表示大量句子时,由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案,我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明,如主成分分析(PCA)等简单方法可以将句子嵌入的维度降低近 50%,而不会在多个下游任务中造成显著性能损失。令人惊讶的是,在某些任务中,进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。
Mar, 2024
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020
采用随机块模型方法,针对主题建模中存在的问题,提出了一种更具通用性和原则性的框架,该框架能够自动检测主题数和分级群集单词和文档,从而比 LDA 在统计模型选择方面提供更好的主题模型。
Aug, 2017
该论文提出了一种基于合成语料库的新框架,用于评估概率主题建模算法,通过比较标记在标记级别上的指定主题标签,能够量化种植和推断主题结构之间的一致性。通过实验,揭示了主题模型的相对强度随语料库特征变化的新见解,并首次证明了主题模型的 “不可检测阶段”。并预测了在真实世界语料库中应用的主题建模算法的性能。
Jan, 2019